Qual è il ruolo della memoria LLM/RAG nel breve-medio termine, dato che le finestre di contesto a lungo termine potrebbero essere estremamente grandi? Ho ottenuto alcune intuizioni discutendo le finestre di contesto LLM con qualcuno del team di DeepMind. Lavorando su Gemma, hanno scoperto che potevano allungare la lunghezza del contesto ma riscontrare problemi di qualità: i token all'inizio e alla fine vengono recuperati bene, ma quelli centrali si perdono nel meccanismo di attenzione. La loro opinione interessante: inizialmente pensavano che un contesto più lungo avrebbe risolto tutto, ma un'analisi più approfondita ha dimostrato che con un conteggio fisso dei parametri, la qualità non è gratuita. Nonostante si spingano ulteriormente sulla lunghezza del contesto, vedono ancora gli approcci RAG come necessari per il prossimo futuro (6-12 mesi) a causa di queste sfide di qualità dell'attenzione. Per ora, il problema del recupero non è completamente risolto semplicemente allungando i contesti. Inoltre, la compilazione dell'intera finestra di contesto per modelli di alta qualità e a lungo contesto costa oggi ~$1 per chiamata.
345