Vi har et alvorlig problem med finjustering. Alle som prøver å gjøre SFT eller RL i dag blir tvunget inn i en av to ytterpunkter: 1. "Brukervennlige" API-er som gir deg nesten ingen kontroll over treningsprosessen. 2. Fullstendig infrastrukturhelvete, hvor du må håndtere sjekkpunkter, rå GPU-er, reprøver, inaktive kostnader og endeløs rørlegging. Det er veldig lite imellom. Jeg har snakket med noen lag som må velge det minste av disse to onderne. De fleste ender opp med å bruke masse penger på folk som kan håndtere infrastruktur fordi de ikke har noe annet valg. Her er et annet alternativ: HPC-AI-teamet har nettopp lansert en finjusterings-SDK som gir deg full kontroll over treningskoden uten å måtte håndtere infrastrukturhelvete: • Du får tilpassede SFT-oppskrifter • RL eller RLVR (Forsterkningslæring med verifiserbare belønninger) • Du kan bruke dine egne belønningsfunksjoner • Du kan bruke dine egne treningssløyfer De håndterer alt på infrastruktursiden: • Du rører aldri Kubernetes-konfigurasjoner • Du rører aldri cluster-planleggere • Du rører aldri GPU-provisionering • Du rører aldri distribuert sjekkpunkt-rørlegging Dette åpner for finjustering til mange flere team. Du trenger ikke lenger velge mellom «for enkelt til å være nyttig» og «så komplekst at det er et mareritt.» Hovedideen her er veldig enkel: Denne modellen skiller algoritmedesign fra infrastrukturteknikk. Det er noe mer: Med denne modellen betaler du per token i stedet for å leie GPU-er per time og håndtere inaktive klynger.
Hvis du vil prøve dette, kan du melde deg på med en kode teamet delte med meg (innebygd i lenken nedenfor): Denne koden gir deg 10 dollar i gratis kuponger (omtrent 1,5 millioner tokens) for å drive din første opplæringsjobb. Og her er GitHub-repositoriet med SDK-en: Takk til HPC-AI-teamet for samarbeidet med meg i dette innlegget.
377