Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
В эпоху предварительного обучения важен был текст из интернета. Вам в первую очередь нужна была большая, разнообразная, качественная коллекция интернет-документов для обучения.
В эпоху контролируемой донастройки важны были разговоры. Наемные работники нанимаются для создания ответов на вопросы, немного похоже на то, что вы видите на Stack Overflow / Quora и т.д., но ориентировано на случаи использования LLM.
Ни одно из двух вышеупомянутых не исчезнет (по моему мнению), но в этой эпохе обучения с подкреплением важны теперь среды. В отличие от вышеупомянутого, они дают LLM возможность действительно взаимодействовать - предпринимать действия, видеть результаты и т.д. Это означает, что вы можете надеяться добиться гораздо лучших результатов, чем статистическая имитация эксперта. И их можно использовать как для обучения модели, так и для оценки. Но, как и прежде, основной проблемой сейчас является необходимость в большом, разнообразном, качественном наборе сред, как упражнения для LLM для практики.
В некотором смысле, я вспоминаю о самом первом проекте OpenAI (gym), который был именно фреймворком, надеющимся создать большую коллекцию сред в одной и той же схеме, но это было задолго до LLM. Поэтому среды были простыми академическими контрольными задачами того времени, такими как cartpole, ATARI и т.д. Хаб сред @PrimeIntellect (и репозиторий `verifiers` на GitHub) создает модернизированную версию, специально нацеленную на LLM, и это отличное усилие/идея. Я предложил, чтобы кто-то построил что-то подобное в начале этого года:
У сред есть свойство, что как только скелет фреймворка на месте, в принципе, сообщество/индустрия могут параллелизировать по многим различным областям, что захватывающе.
Последняя мысль - лично и в долгосрочной перспективе я оптимистично настроен по поводу сред и агентных взаимодействий, но пессимистично по поводу обучения с подкреплением в частности. Я думаю, что функции вознаграждения очень подозрительны, и я думаю, что люди не используют RL для обучения (возможно, они делают это для некоторых моторных задач и т.д., но не для интеллектуальных задач решения проблем). Люди используют разные парадигмы обучения, которые значительно более мощные и эффективные по выборке и которые еще не были должным образом изобретены и масштабированы, хотя ранние эскизы и идеи существуют (в качестве одного примера, идея "обучения по системным подсказкам", перемещение обновления к токенам/контекстам, а не весам и, возможно, дистилляция в веса как отдельный процесс, немного как сон).

28 авг., 03:16
Представляем Хаб Окружений
Окружения RL являются ключевым узким местом для следующей волны прогресса в области ИИ, но крупные лаборатории их закрывают
Мы создали платформу сообщества для краудсорсинга открытых окружений, чтобы любой мог внести свой вклад в открытый AGI
612,74K
Топ
Рейтинг
Избранное