Mamy poważny problem z dostrajaniem. Każdy, kto próbuje dziś przeprowadzić SFT lub RL, jest zmuszony do wyboru jednej z dwóch skrajności: 1. "Łatwe w użyciu" API, które dają prawie żadną kontrolę nad procesem treningowym. 2. Pełne piekło infrastruktury, gdzie musisz radzić sobie z punktami kontrolnymi, surowymi GPU, ponownymi próbami, kosztami bezczynności i niekończącym się okablowaniem. Pomiędzy tymi dwoma skrajnościami jest bardzo mało miejsca. Rozmawiałem z kilkoma zespołami, które muszą wybierać mniejsze zło. Większość kończy wydając mnóstwo pieniędzy na ludzi, którzy potrafią obsługiwać infrastrukturę, ponieważ nie mają innego wyboru. Oto inna alternatywa: Zespół HPC-AI właśnie wydał SDK do dostrajania, które daje pełną kontrolę nad twoim kodem treningowym bez konieczności radzenia sobie z piekłem infrastruktury: • Otrzymujesz niestandardowe przepisy SFT • RL lub RLVR (Uczenie przez Wzmocnienie z Weryfikowalnymi Nagradzami) • Możesz używać własnych funkcji nagradzających • Możesz używać własnych pętli treningowych Oni zajmują się wszystkim po stronie infrastruktury: • Nigdy nie dotykasz konfiguracji Kubernetes • Nigdy nie dotykasz harmonogramów klastrów • Nigdy nie dotykasz przydzielania GPU • Nigdy nie dotykasz okablowania punktów kontrolnych w rozproszonym systemie To otwiera dostrajanie dla wielu więcej zespołów. Nie musisz już wybierać między "zbyt prostym, aby być użytecznym" a "tak skomplikowanym, że to koszmar." Kluczowa idea jest bardzo prosta: Ten model oddziela projektowanie algorytmu od inżynierii infrastruktury. Jest jeszcze coś: Z tym modelem płacisz za tokeny, a nie wynajmujesz GPU na godzinę i nie musisz radzić sobie z bezczynnymi klastrami.
Jeśli chcesz to wypróbować, możesz zarejestrować się za pomocą kodu, który zespół mi udostępnił (wbudowanego w link poniżej): Ten kod da ci 10 USD w darmowych kuponach (około 1,5M tokenów) na uruchomienie twojego pierwszego zadania treningowego. A oto repozytorium GitHub z SDK: Dziękuję zespołowi HPC-AI za współpracę przy tym poście.
439