Meta Superintelligence Labs fikk nettopp LLM-er til å håndtere 16 ganger mer kontekst og låste opp opptil 31 ganger hastighet. 🤯 Deres nye REFRAG-rammeverk revurderer RAG fra grunnen av for å oppnå dette, alt med null fall i nøyaktighet. Slik fungerer det: Kjerneproblemet med lang kontekst er enkelt: å gjøre et dokument 2 ganger lengre kan gjøre AI 4 ganger tregere. Dette er fordi en LLMs oppmerksomhetsmekanisme er dyr. Kostnadene og minnebruken vokser kvadratisk (N²) med lengden på teksten. REFRAG omgår dette. Komprimer: En liten, lett koder leser først de hentede dokumentene. Den komprimerer hver 16-token-tekstbit til en enkelt, tett vektor kalt en "chunk embedding", som fanger den semantiske essensen. Forkort: Hoved-LLM-en mates deretter med en sekvens av disse innebyggingene i stedet for råtokenene. Inngangen den må behandle er nå 16 ganger kortere. Akselerere: Fordi inngangssekvensen er så kort, er den kvadratiske oppmerksomhetsberegningen billigere, og KV-cachen (den primære minnesvinet i LLM-er) er mindre. Det er dette som låser opp 30.85x hastigheten. Velg: For å garantere nøyaktighet fungerer en policy for forsterkende læring (RL) som en leder for kvalitetskontroll. Den identifiserer de mest kritiske, informasjonstette bitene og ber systemet om ikke å komprimere dem, noe som sikrer at viktige detaljer bevares. Hvorfor dette er viktig: REFRAG gjør løftet om storkontekst-RAG til en produksjonsrealitet. Bedriftsledere: Slik skalerer du AI-applikasjoner lønnsomt. Lever mer effektive svar til brukere, analyser hele rapporter, ikke bare sider, samtidig som du er raskere og billigere. Utøvere: Du trenger ikke lenger velge mellom store sammenhenger og rimelige hukommelsesbudsjetter. REFRAG lar deg ha begge deler. Det er en arkitektonisk seier uten arkitektoniske endringer. Forskere: Dette arbeidet viser at samutforming av dekodingsstrategier med applikasjonsspesifikke datamønstre (som RAGs oppmerksomhetssparsitet) gir resultater utover generiske, brute-force-løsninger.