Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Andrej Karpathy
Å bygge @EurekaLabsAI. Tidligere direktør for AI @ Tesla, grunnleggerteam @ OpenAI, CS231n/PhD @ Stanford. Jeg liker å trene store dype nevrale nett.
I en tid med fortrening var det internetttekst som betydde noe. Du vil først og fremst ha en stor, mangfoldig samling av internettdokumenter av høy kvalitet å lære av.
I en tid med overvåket finjustering var det samtaler. Kontraktsarbeidere er ansatt for å lage svar på spørsmål, litt som det du vil se på Stack Overflow / Quora, eller etc., men rettet mot LLM-brukstilfeller.
Ingen av de to ovennevnte forsvinner (imo), men i denne epoken med forsterkende læring er det nå miljøer. I motsetning til de ovennevnte, gir de LLM en mulighet til å faktisk samhandle - iverksette handlinger, se resultater osv. Dette betyr at du kan håpe å gjøre det mye bedre enn statistisk ekspertimitasjon. Og de kan brukes både til modelltrening og evaluering. Men akkurat som før, er kjerneproblemet nå å trenge et stort, mangfoldig sett med miljøer av høy kvalitet, som øvelser for LLM å øve mot.
På noen måter blir jeg minnet om OpenAIs aller første prosjekt (treningsstudio), som var akkurat et rammeverk i håp om å bygge en stor samling miljøer i samme skjema, men dette var lenge før LLM-er. Så miljøene var enkle akademiske kontrolloppgaver på den tiden, som cartpole, ATARI, etc. Huben for @PrimeIntellect miljøer (og «verifikatorer»-repositoriet på GitHub) bygger den moderniserte versjonen som er spesielt rettet mot LLM-er, og det er en flott innsats/idé. Jeg foreslo at noen skulle bygge noe lignende tidligere i år:
Miljøer har den egenskapen at når skjelettet til rammeverket er på plass, kan i prinsippet samfunnet/industrien parallellisere på tvers av mange ulike domener, noe som er spennende.
Siste tanke - personlig og langsiktig, jeg er bullish på miljøer og agentiske interaksjoner, men jeg er bearish på forsterkende læring spesifikt. Jeg tror at belønningsfunksjoner er super sus, og jeg tror mennesker ikke bruker RL for å lære (kanskje de gjør det for noen motoriske oppgaver osv., men ikke intellektuelle problemløsningsoppgaver). Mennesker bruker forskjellige læringsparadigmer som er betydelig kraftigere og prøveeffektive, og som ikke har blitt ordentlig oppfunnet og skalert ennå, selv om tidlige skisser og ideer eksisterer (som bare ett eksempel, ideen om "systemrask læring", flytte oppdateringen til tokens/kontekster ikke vekter og eventuelt destillere til vekter som en egen prosess litt som søvn gjør).

Prime Intellect28. aug., 03:16
Vi presenterer miljøhuben
RL-miljøer er den viktigste flaskehalsen for neste bølge av AI-fremgang, men store laboratorier låser dem ned
Vi bygde en fellesskapsplattform for crowdsourcing av åpne miljøer, slik at alle kan bidra til AGI med åpen kildekode
719,04K
Fortsetter reisen mot optimal LLM-assistert kodeopplevelse. Spesielt opplever jeg at i stedet for å begrense meg til en perfekt ting, diversifiserer bruken min stadig mer over noen få arbeidsflyter som jeg "syr sammen" fordeler/ulemper med:
Personlig fortsetter brødet og smøret (~75%?) av min LLM-hjelp å være bare (markør) fanen fullført. Dette er fordi jeg synes at det å skrive konkrete biter av kode/kommentarer selv og i riktig del av koden er en høy båndbredde måte å kommunisere "oppgavespesifikasjon" til LLM, det vil si at det først og fremst handler om oppgavespesifikasjonsbiter - det tar for mange biter og for mye ventetid for å kommunisere hva jeg vil ha i tekst, Og det er raskere å bare demonstrere det i koden og på riktig sted. Noen ganger er fanemodellen irriterende, så jeg slår den mye på/av.
Neste lag opp er å fremheve en konkret kodebit og be om en slags modifikasjon.
Neste lag opp er Claude Code / Codex / etc, som kjører på siden av Cursor, som jeg går til for større biter av funksjonalitet som også er ganske enkle å spesifisere i en ledetekst. Disse er supernyttige, men fortsatt blandet generelt og litt frustrerende til tider. Jeg kjører ikke i YOLO-modus fordi de kan gå utenfor banen og gjøre dumme ting du ikke ønsket/trenger, og jeg ESC ganske ofte. Jeg har heller ikke lært å være produktiv ved å bruke mer enn én forekomst parallelt - en føles allerede vanskelig nok. Jeg har ikke funnet ut en god måte å beholde CLAUDE på[.]MD god eller oppdatert. Jeg må ofte gjøre en omgang "oppryddinger" for kodestil, eller spørsmål om kodesmak. F.eks. er de for defensive og bruker ofte for mye prøv/fang-utsagn, de overkompliserer ofte abstraksjoner, de overdriver kode (f.eks. en nestet hvis-den-ellers-konstruksjon når en listeforståelse eller en en-liner hvis-så-ellers-ellers ville fungere), eller de dupliserer kodebiter i stedet for å lage en fin hjelpefunksjon, sånne ting... de har i utgangspunktet ikke smakssans. De er uunnværlige i tilfeller der jeg kommer inn i et mer vibe-kodende territorium der jeg er mindre kjent (f.eks. skrive litt rust nylig, eller sql-kommandoer, eller noe annet jeg har gjort mindre av før). Jeg prøvde også CC for å lære meg ting ved siden av koden den skrev, men det fungerte ikke i det hele tatt - den vil egentlig bare skrive kode mye mer enn den vil forklare noe underveis. Jeg prøvde å få CC til å gjøre hyperparameterjustering, noe som var veldig morsomt. De er også veldig nyttige i alle slags engangsvisualiseringer eller verktøy med lavere innsats eller feilsøkingskode som jeg aldri ville skrevet ellers fordi det ville tatt altfor lang tid. F.eks. kan CC hamre ut 1,000 linjer med engangs omfattende visualisering/kode bare for å identifisere en spesifikk feil, som blir slettet rett etter at vi finner den. Det er koden etter knapphet - du kan bare opprette og deretter slette tusenvis av linjer med supertilpasset, super flyktig kode nå, det er ok, det er ikke denne dyrebare kostbare tingen lenger.
Det siste forsvarslaget er GPT5 Pro, som jeg går til for de vanskeligste tingene. F.eks. har det skjedd med meg noen ganger nå at jeg / Cursor / CC alle sitter fast på en feil i 10 minutter, men når jeg kopierer og limer inn hele greia til 5 Pro, går den av i 10 minutter, men finner faktisk en veldig subtil feil. Den er veldig sterk. Den kan grave opp alle slags esoteriske dokumenter og papirer og slikt. Jeg har også brukt den til andre mer kjøttfulle oppgaver, for eksempel forslag til hvordan man kan rydde opp i abstraksjoner (blandede resultater, noen ganger gode ideer, men ikke alle), eller en hel litteraturgjennomgang rundt hvordan folk gjør dette eller hint, og den kommer tilbake med gode relevante ressurser/tips.
Uansett, koding føles helt blåst opp med muligheter på tvers av en rekke "typer" koding og deretter en rekke verktøy med sine fordeler/ulemper. Det er vanskelig å unngå følelsen av angst rundt å ikke være på grensen av hva som er kollektivt mulig, derav tilfeldig søndagsdusj av tanker og en god mengde nysgjerrighet på hva andre finner.
614,34K
Jeg får ~10 spam-anrop per dag (ulike automatiserte talemeldinger, "forhåndsgodkjenning av lån" osv.) og ~5 spam-meldinger per dag (vanligvis phishing).
- Jeg har AT&T Active Armor, alt det ovennevnte slipper fortsatt gjennom.
- Alt det ovennevnte er alltid fra nye, unike numre, så blokkering fungerer ikke.
- Jeg er på alle Ikke ring-lister.
- Jeg har iOS "Silence Unknown Callers" på, men selv om den fanger opp og demper får jeg fortsatt varslene.
Ikke sikker på om andre ser noe lignende eller fant ut noe som fungerer
3,5K
Topp
Rangering
Favoritter