Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Dwarkesh Patel
Ich frage mich, was passieren würde, wenn du die METR AI Uplift-Studie replizierst, aber für alltäglichere Werkzeuge.
Zum Beispiel, schließe diesen Pull-Request ab, aber ohne Internetzugang.
Es würde mich nicht überraschen, wenn die Produktivität steigt (so wie es ohne LLMs der Fall war).
Wenn dem so ist, sagt die Studie vielleicht mehr darüber aus, wie einfach es ist, sich abzulenken (und wie man, solange man jede andere Option hat, sich weigert, kognitive Anstrengungen auf das Herz des Problems zu konzentrieren), als über LLM-Coding-Assistenten im Speziellen.

METR11. Juli 2025
Wir haben eine randomisierte, kontrollierte Studie durchgeführt, um zu sehen, wie sehr KI-Codierungstools erfahrene Open-Source-Entwickler beschleunigen.
Die Ergebnisse haben uns überrascht: Entwickler dachten, sie wären mit KI-Tools 20 % schneller, aber sie waren tatsächlich 19 % langsamer, wenn sie Zugang zu KI hatten, als wenn sie keinen hatten.

38,61K
Von @tobyordoxford's Beitrag.
Gibt es gute öffentliche Beweise dafür, wie breit die Fähigkeiten sind, die LLMs durch RL erlernen?
Zum Beispiel, was ist das überzeugendste Beispiel für Transferlernen in RL? Wo das Training in einer spezifischen Umgebung zu besseren Fähigkeiten in einigen ziemlich unähnlichen Bereichen führt?
Ich weiß, eine offensichtliche Antwort hier könnte sein, einfach auf GPT 5 zu zeigen. Wie viel besser es im allgemeinen Denken als GPT 4 ist, könnte wahrscheinlich auf RL zurückzuführen sein.


Dwarkesh Patel20. Sept., 01:44
Interessanter Beitrag. Bits/FLOP von RL sind 3-6 OOMs niedriger als beim Pretraining.
Obwohl @tamaybes den Punkt gemacht hat, dass die Bits von RL die spezifischen Fähigkeiten anvisieren können, die man lernen möchte. Während das Pretraining diese Bits einfach über das Lernen zufälliger ASCII-Beziehungen und einer Million anderer irrelevanter Dinge verteilt.
Darüber hinaus gibt es für jede gegebene Aufgabe viele Entscheidungen, deren spezifische Ausführung nicht viel bedeutet, und ein paar, die man wirklich gut hinbekommen möchte. RL kann das Signal darauf konzentrieren, zu lernen, wie man die kritischen Zustände im Episode nicht vermasselt, anstatt jedes einzelne Token korrekt zu bekommen. Nützliches Bild aus einer der alten Vorlesungen von @svlevine (B ist der kritische Zustand):
Ich denke, das führt immer noch dazu, dass RL weit weniger informationsdicht ist als das Pretraining. Und ich stimme Toby zu, dass der Intelligenzgewinn pro FLOP des RL-Umgebungstrainings geringer sein wird, als viele annehmen.
Ich arbeite an einem Beitrag darüber mit @EgeErdil2, @MatthewJBar und @tamaybes. Hoffentlich können wir nächste Woche veröffentlichen.


51,73K
Top
Ranking
Favoriten