DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Brendan McCord 🏛️ x 🤖

Die Akademie für Philosophen-Erbauer (https://t.co/mzj0DMJiLX). Ein Gesetz für mich, genau wie du.

Die KI-Community entdeckt unabhängig, dass reine Belohnungsoptimierung unzureichend ist und dass etwas wie reflektierende Selbstbildung für nachhaltiges Lernen erforderlich ist. Das stimmt mit einer Idee aus der Philosophie von "Bildung" überein, oder der Selbstbildung der ganzen Person durch Engagement mit der Welt. Der Loop, den sie hier verwenden (Erfahrung → Reflexion → Konzeptualisierung → überarbeitete Handlung → Internalisierung), ist ausdrücklich von Kolb abgeleitet, der von Dewey abgeleitet ist, der von Hegel abgeleitet ist, der über Bildung schrieb. Das Detail, das am wichtigsten ist, ist der Schritt der Internalisierung. Mit dieser Technik der ERL werden reflexionsgesteuerte Verbesserungen in die Basisrichtlinie destilliert, sodass der Agent gut handeln kann, ohne Unterstützung bei der Bereitstellung. Ähnlich wie bei der Idee der Bildung, dass echte Bildung Teil deines Charakters wird. Wo könnte das von hier aus hingehen? Die Variante der Bildung, die ich am meisten mag, die von Wilhelm von Humboldt, ist die Bildung zu keinem extern vorbestimmten Ziel. Die Person entfaltet sich zu ihrer eigenen einzigartigen Vollständigkeit, und die Begegnung mit der Welt verwandelt das, was sie zu werden versucht. ERL hingegen optimiert auf eine feste, extern spezifizierte Belohnungsfunktion. Der Agent überarbeitet niemals seine Ziele, nur seine Mittel. Humboldt würde dies Ausbildung (berufliche Ausbildung) und nicht Bildung (Selbstbildung) nennen. Die Reflexion in ERL ist völlig instrumental ("Wie bekomme ich mehr Belohnung?") und niemals die breitere Frage "Was sollte ich versuchen zu tun?" Verwandt: Bildung erfordert echte Freiheit und Offenheit. Der Agent in ERL operiert in geschlossenen Umgebungen mit klaren Erfolgskriterien. Es gibt keine Möglichkeit, dass der Sokoban-Agent in dem Papier entscheidet, dass das Schieben von Kisten sinnlos ist und er stattdessen Gedichte schreiben möchte. Das "Selbst", das geformt wird, ist immer bereits durch die Aufgabenbeschreibung umschrieben. Und der Mechanismus der "Internalisierung", obwohl strukturell elegant, ist wirklich das Verhalten Klonen erfolgreicher Ausgaben. Der Agent lernt, verbessertes Verhalten zu reproduzieren, nicht zu verstehen, warum die Verbesserung wichtig ist. In der Bildung transformiert die Internalisierung deine Beziehung zur Welt. Das ist ein großartiges "Philosophie zu Code"-Papier. Ich würde @taiwei_shi und die anderen Autoren ermutigen, Humboldt zu lesen, um über weitere Richtungen nachzudenken, z.B. von der Mechanisierung des reflexiven Loops zur Mechanisierung der Frage, wofür die Reflexion ist.

Top

Ranking

Favoriten