Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meta Superintelligence Labs fikk nettopp LLM-er til å håndtere 16 ganger mer kontekst og låste opp opptil 31 ganger hastighet. 🤯
Deres nye REFRAG-rammeverk revurderer RAG fra grunnen av for å oppnå dette, alt med null fall i nøyaktighet.
Slik fungerer det:
Kjerneproblemet med lang kontekst er enkelt: å gjøre et dokument 2 ganger lengre kan gjøre AI 4 ganger tregere.
Dette er fordi en LLMs oppmerksomhetsmekanisme er dyr. Kostnadene og minnebruken vokser kvadratisk (N²) med lengden på teksten.
REFRAG omgår dette.
Komprimer: En liten, lett koder leser først de hentede dokumentene. Den komprimerer hver 16-token-tekstbit til en enkelt, tett vektor kalt en "chunk embedding", som fanger den semantiske essensen.
Forkort: Hoved-LLM-en mates deretter med en sekvens av disse innebyggingene i stedet for råtokenene. Inngangen den må behandle er nå 16 ganger kortere.
Akselerere: Fordi inngangssekvensen er så kort, er den kvadratiske oppmerksomhetsberegningen billigere, og KV-cachen (den primære minnesvinet i LLM-er) er mindre. Det er dette som låser opp 30.85x hastigheten.
Velg: For å garantere nøyaktighet fungerer en policy for forsterkende læring (RL) som en leder for kvalitetskontroll. Den identifiserer de mest kritiske, informasjonstette bitene og ber systemet om ikke å komprimere dem, noe som sikrer at viktige detaljer bevares.
Hvorfor dette er viktig:
REFRAG gjør løftet om storkontekst-RAG til en produksjonsrealitet.
Bedriftsledere: Slik skalerer du AI-applikasjoner lønnsomt. Lever mer effektive svar til brukere, analyser hele rapporter, ikke bare sider, samtidig som du er raskere og billigere.
Utøvere: Du trenger ikke lenger velge mellom store sammenhenger og rimelige hukommelsesbudsjetter. REFRAG lar deg ha begge deler. Det er en arkitektonisk seier uten arkitektoniske endringer.
Forskere: Dette arbeidet viser at samutforming av dekodingsstrategier med applikasjonsspesifikke datamønstre (som RAGs oppmerksomhetssparsitet) gir resultater utover generiske, brute-force-løsninger.

Topp
Rangering
Favoritter