Wir haben ein ernstes Problem mit dem Fine-Tuning. Jeder, der heute SFT oder RL durchführen möchte, ist gezwungen, sich für eines von zwei Extremen zu entscheiden: 1. "Einfach zu bedienende" APIs, die Ihnen fast keine Kontrolle über den Trainingsprozess geben. 2. Vollständige Infrastruktur-Hölle, in der Sie sich mit Checkpoints, rohen GPUs, Wiederholungen, Leerkosten und endlosem Aufwand herumschlagen müssen. Es gibt sehr wenig dazwischen. Ich habe mit einigen Teams gesprochen, die das kleinere Übel aus diesen beiden wählen müssen. Die meisten geben eine Menge Geld für Leute aus, die mit der Infrastruktur umgehen können, weil sie keine andere Wahl haben. Hier ist eine andere Alternative: Das HPC-AI-Team hat gerade ein Fine-Tuning-SDK veröffentlicht, das Ihnen die volle Kontrolle über Ihren Trainingscode gibt, ohne sich mit der Infrastruktur-Hölle herumschlagen zu müssen: • Sie erhalten benutzerdefinierte SFT-Rezepte • RL oder RLVR (Reinforcement Learning mit verifizierbaren Belohnungen) • Sie können Ihre eigenen Belohnungsfunktionen verwenden • Sie können Ihre eigenen Trainingsschleifen verwenden Sie kümmern sich um alles auf der Infrastrukturseite: • Sie berühren niemals Kubernetes-Konfigurationen • Sie berühren niemals Cluster-Scheduler • Sie berühren niemals die GPU-Bereitstellung • Sie berühren niemals die verteilte Checkpoint-Infrastruktur Das öffnet das Fine-Tuning für viele weitere Teams. Sie müssen sich nicht mehr zwischen "zu einfach, um nützlich zu sein" und "so komplex, dass es ein Albtraum ist" entscheiden. Die zentrale Idee hier ist sehr einfach: Dieses Modell entkoppelt das Algorithmusdesign von der Infrastrukturtechnik. Es gibt noch etwas anderes: Mit diesem Modell zahlen Sie pro Token, anstatt GPUs stundenweise zu mieten und sich mit Leerkapazitäten auseinanderzusetzen.
Wenn du das ausprobieren möchtest, kannst du dich mit einem Code anmelden, den das Team mit mir geteilt hat (eingebettet im Link unten): Dieser Code gibt dir 10 $ in kostenlosen Gutscheinen (ungefähr 1,5M Token), um deinen ersten Trainingsjob auszuführen. Und hier ist das GitHub-Repository mit dem SDK: Danke an das HPC-AI-Team für die Zusammenarbeit an diesem Beitrag.
440