Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Brendan McCord 🏛️ x 🤖
Die Akademie für Philosophen-Erbauer (https://t.co/mzj0DMJiLX). Ein Gesetz für mich, genau wie du.
LLMs leben von dem moralischen und intellektuellen Kapital einer Welt vor der KI, genau wie Nietzsche sagte, dass säkulare Liberale vom Christentum leben. Was passiert, wenn das Erbe aufgebraucht ist?
LLMs gut zu nutzen – zu wissen, wann man ihnen vertrauen kann, wie man ihre Ausgaben hinterfragt, welche Fragen es wert sind, gestellt zu werden – hängt von Fähigkeiten ab, die ihren Ursprung vor den LLMs haben: kritisches Urteilsvermögen, Fachwissen, philosophische Ernsthaftigkeit, Geschmack.
Die Menschen, die LLMs derzeit gut nutzen, sind oft Menschen, die durch Traditionen des tiefen Lesens, der Argumentation und der intellektuellen Disziplin geprägt wurden, die selbst nicht von oder für die Interaktion mit Sprachmodellen produziert oder optimiert wurden. Das Werkzeug funktioniert für sie, weil sie etwas mitbringen, das das Werkzeug nicht liefern kann.
Nietzsche dachte, säkulare Liberale würden auf den Dämpfen einer christlichen Metaphysik fahren, die sie offiziell aufgegeben hatten. Der Schatten Gottes, der an der Wand der Höhle verweilt. Die Frage ist, ob das Denken, das auf LLMs basiert, die gleiche Art von Nachglühen ist.
4
Die KI-Community entdeckt unabhängig, dass reine Belohnungsoptimierung unzureichend ist und dass etwas wie reflektierende Selbstbildung für nachhaltiges Lernen erforderlich ist.
Das stimmt mit einer Idee aus der Philosophie von "Bildung" überein, oder der Selbstbildung der ganzen Person durch Engagement mit der Welt.
Der Loop, den sie hier verwenden (Erfahrung → Reflexion → Konzeptualisierung → überarbeitete Handlung → Internalisierung), ist ausdrücklich von Kolb abgeleitet, der von Dewey abgeleitet ist, der von Hegel abgeleitet ist, der über Bildung schrieb.
Das Detail, das am wichtigsten ist, ist der Schritt der Internalisierung. Mit dieser Technik der ERL werden reflexionsgesteuerte Verbesserungen in die Basisrichtlinie destilliert, sodass der Agent gut handeln kann, ohne Unterstützung bei der Bereitstellung. Ähnlich wie bei der Idee der Bildung, dass echte Bildung Teil deines Charakters wird.
Wo könnte das von hier aus hingehen?
Die Variante der Bildung, die ich am meisten mag, die von Wilhelm von Humboldt, ist die Bildung zu keinem extern vorbestimmten Ziel. Die Person entfaltet sich zu ihrer eigenen einzigartigen Vollständigkeit, und die Begegnung mit der Welt verwandelt das, was sie zu werden versucht.
ERL hingegen optimiert auf eine feste, extern spezifizierte Belohnungsfunktion. Der Agent überarbeitet niemals seine Ziele, nur seine Mittel. Humboldt würde dies Ausbildung (berufliche Ausbildung) und nicht Bildung (Selbstbildung) nennen. Die Reflexion in ERL ist völlig instrumental ("Wie bekomme ich mehr Belohnung?") und niemals die breitere Frage "Was sollte ich versuchen zu tun?"
Verwandt: Bildung erfordert echte Freiheit und Offenheit. Der Agent in ERL operiert in geschlossenen Umgebungen mit klaren Erfolgskriterien. Es gibt keine Möglichkeit, dass der Sokoban-Agent in dem Papier entscheidet, dass das Schieben von Kisten sinnlos ist und er stattdessen Gedichte schreiben möchte. Das "Selbst", das geformt wird, ist immer bereits durch die Aufgabenbeschreibung umschrieben.
Und der Mechanismus der "Internalisierung", obwohl strukturell elegant, ist wirklich das Verhalten Klonen erfolgreicher Ausgaben. Der Agent lernt, verbessertes Verhalten zu reproduzieren, nicht zu verstehen, warum die Verbesserung wichtig ist. In der Bildung transformiert die Internalisierung deine Beziehung zur Welt.
Das ist ein großartiges "Philosophie zu Code"-Papier. Ich würde @taiwei_shi und die anderen Autoren ermutigen, Humboldt zu lesen, um über weitere Richtungen nachzudenken, z.B. von der Mechanisierung des reflexiven Loops zur Mechanisierung der Frage, wofür die Reflexion ist.

Taiwei Shi17. Feb. 2026
Seit Jahrzehnten trainieren wir KI, um Belohnungen zu verfolgen. Aber Menschen optimieren nicht nur Ergebnisse. Wir erleben, reflektieren und lernen dann.
Kann KI dasselbe tun?
Wir stellen 𝐄𝐱𝐩𝐞𝐫𝐢𝐞𝐧𝐭𝐢𝐚𝐥 𝐑𝐞𝐢𝐧𝐟𝐨𝐫𝐜𝐞𝐦𝐞𝐧𝐭 𝐋𝐞𝐚𝐫𝐧𝐢𝐧𝐠 vor, einen Schritt in Richtung KI, die wirklich aus Erfahrung lernt.

61
Top
Ranking
Favoriten
