Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

В эпоху предварительного обучения важен был текст из интернета. Вам в первую очередь нужна была большая, разнообразная, качественная коллекция интернет-документов для обучения. В эпоху контролируемой донастройки важны были разговоры. Наемные работники нанимаются для создания ответов на вопросы, немного похоже на то, что вы видите на Stack Overflow / Quora и т.д., но ориентировано на случаи использования LLM. Ни одно из двух вышеупомянутых не исчезнет (по моему мнению), но в этой эпохе обучения с подкреплением важны теперь среды. В отличие от вышеупомянутого, они дают LLM возможность действительно взаимодействовать - предпринимать действия, видеть результаты и т.д. Это означает, что вы можете надеяться добиться гораздо лучших результатов, чем статистическая имитация эксперта. И их можно использовать как для обучения модели, так и для оценки. Но, как и прежде, основной проблемой сейчас является необходимость в большом, разнообразном, качественном наборе сред, как упражнения для LLM для практики. В некотором смысле, я вспоминаю о самом первом проекте OpenAI (gym), который был именно фреймворком, надеющимся создать большую коллекцию сред в одной и той же схеме, но это было задолго до LLM. Поэтому среды были простыми академическими контрольными задачами того времени, такими как cartpole, ATARI и т.д. Хаб сред @PrimeIntellect (и репозиторий `verifiers` на GitHub) создает модернизированную версию, специально нацеленную на LLM, и это отличное усилие/идея. Я предложил, чтобы кто-то построил что-то подобное в начале этого года: У сред есть свойство, что как только скелет фреймворка на месте, в принципе, сообщество/индустрия могут параллелизировать по многим различным областям, что захватывающе. Последняя мысль - лично и в долгосрочной перспективе я оптимистично настроен по поводу сред и агентных взаимодействий, но пессимистично по поводу обучения с подкреплением в частности. Я думаю, что функции вознаграждения очень подозрительны, и я думаю, что люди не используют RL для обучения (возможно, они делают это для некоторых моторных задач и т.д., но не для интеллектуальных задач решения проблем). Люди используют разные парадигмы обучения, которые значительно более мощные и эффективные по выборке и которые еще не были должным образом изобретены и масштабированы, хотя ранние эскизы и идеи существуют (в качестве одного примера, идея "обучения по системным подсказкам", перемещение обновления к токенам/контекстам, а не весам и, возможно, дистилляция в веса как отдельный процесс, немного как сон).

612,74K

Топ

Рейтинг

Избранное