Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

There.Is.Now.Alternative⚡🤖
Millioner av 🤖 lever i millisekunder for å gjøre markedsturen komplett, hvem vil være det siste mennesket som står?
Jeg lever til jeg desentraliserer.
Pi-Rate $HIP ⚓🏴 ☠️
There.Is.Now.Alternative⚡🤖 lagt ut på nytt
I en tid med fortrening var det internetttekst som betydde noe. Du vil først og fremst ha en stor, mangfoldig samling av internettdokumenter av høy kvalitet å lære av.
I en tid med overvåket finjustering var det samtaler. Kontraktsarbeidere er ansatt for å lage svar på spørsmål, litt som det du vil se på Stack Overflow / Quora, eller etc., men rettet mot LLM-brukstilfeller.
Ingen av de to ovennevnte forsvinner (imo), men i denne epoken med forsterkende læring er det nå miljøer. I motsetning til de ovennevnte, gir de LLM en mulighet til å faktisk samhandle - iverksette handlinger, se resultater osv. Dette betyr at du kan håpe å gjøre det mye bedre enn statistisk ekspertimitasjon. Og de kan brukes både til modelltrening og evaluering. Men akkurat som før, er kjerneproblemet nå å trenge et stort, mangfoldig sett med miljøer av høy kvalitet, som øvelser for LLM å øve mot.
På noen måter blir jeg minnet om OpenAIs aller første prosjekt (treningsstudio), som var akkurat et rammeverk i håp om å bygge en stor samling miljøer i samme skjema, men dette var lenge før LLM-er. Så miljøene var enkle akademiske kontrolloppgaver på den tiden, som cartpole, ATARI, etc. Huben for @PrimeIntellect miljøer (og «verifikatorer»-repositoriet på GitHub) bygger den moderniserte versjonen som er spesielt rettet mot LLM-er, og det er en flott innsats/idé. Jeg foreslo at noen skulle bygge noe lignende tidligere i år:
Miljøer har den egenskapen at når skjelettet til rammeverket er på plass, kan i prinsippet samfunnet/industrien parallellisere på tvers av mange ulike domener, noe som er spennende.
Siste tanke - personlig og langsiktig, jeg er bullish på miljøer og agentiske interaksjoner, men jeg er bearish på forsterkende læring spesifikt. Jeg tror at belønningsfunksjoner er super sus, og jeg tror mennesker ikke bruker RL for å lære (kanskje de gjør det for noen motoriske oppgaver osv., men ikke intellektuelle problemløsningsoppgaver). Mennesker bruker forskjellige læringsparadigmer som er betydelig kraftigere og prøveeffektive, og som ikke har blitt ordentlig oppfunnet og skalert ennå, selv om tidlige skisser og ideer eksisterer (som bare ett eksempel, ideen om "systemrask læring", flytte oppdateringen til tokens/kontekster ikke vekter og eventuelt destillere til vekter som en egen prosess litt som søvn gjør).
788,17K
There.Is.Now.Alternative⚡🤖 lagt ut på nytt
Angående FOCIL:
Vi vet alle HVORDAN blokkjeder fungerer, men noen av oss glemmer HVORFOR de eksisterer i utgangspunktet. Så, skikkelig rask oppfriskning:
Blokkjeder eksisterer IKKE for å betjene gruvearbeidere/validatorer/byggere.
Gruvearbeidere/validatorer/byggere eksisterer for å betjene brukere.
Den ENESTE tjenesten som gruvearbeidere/validatorer/byggherrer gir brukerne er CENSORSHIP-RESISTANCE.
Den ENESTE grunnen til at gruvearbeidere/validatorer/byggere eksisterer i det hele tatt er for å gi sensurmotstand til sluttbrukerne.
God konsensusprotokolldesign søker dermed å maksimere sensurmotstanden for brukeren, samtidig som kostnadene minimeres (betalinger til gruvearbeidere/validatorer/byggere).
Trivselen til gruvearbeidere/validatorer/byggherrer betyr KUN noe i den grad sluttbrukere blir servert med maksimal sensurmotstand.
FOCIL er dermed et STORT skritt fremover for konsensusprotokoller, da det bidrar til å eliminere gratisarbeidere/validatorer/byggere som tar betaling (i form av gebyrer, MEV og blokkbelønninger) uten å tilby den ENE tjenesten som forventes av dem: sensurmotstand.
2,1K
Topp
Rangering
Favoritter