Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Jakub Pachocki

Открытый ИИ

На прошлой неделе наши модели рассуждений приняли участие в Международном студенческом конкурсе программирования (ICPC) 2025 года, который является ведущим университетским соревнованием по программированию в мире. Наша система решила все 12 из 12 задач, что обеспечило бы первое место в мире (лучшая команда из людей решила 11 задач). Этот этап завершает интенсивные 2 месяца выступлений наших моделей на соревнованиях: - Второе место на Всемирном финале AtCoder Heuristics - Золотая медаль на Международной математической олимпиаде - Золотая медаль на Международной олимпиаде по информатике - И теперь, золотая медаль, первое место на Всемирном финале ICPC. Я считаю, что эти результаты, полученные от семейства общих моделей рассуждений, основанных на нашей основной исследовательской программе, возможно, являются самым ясным показателем прогресса в этом году. Эти соревнования являются отличными самодостаточными, ограниченными по времени тестами на способность открывать новые идеи. Даже до того, как наши модели стали proficient в простой арифметике, мы смотрели на эти конкурсы как на вехи прогресса к трансформирующему искусственному интеллекту. Теперь наши модели занимают место среди лучших людей в этих областях, когда им задаются четко сформулированные вопросы и ограничиваются ~5 часами. Теперь задача заключается в переходе к более открытым проблемам и гораздо более длительным временным рамкам. Этот уровень способности рассуждения, применяемый на протяжении месяцев и лет к действительно важным проблемам, является тем, к чему мы стремимся - автоматизация научного открытия. Этот быстрый прогресс также подчеркивает важность исследований в области безопасности и согласования. Нам все еще нужно больше понимания свойств согласования долгосрочных моделей рассуждений; в частности, я рекомендую ознакомиться с увлекательными выводами из исследования схем в моделях рассуждений, которые мы опубликовали сегодня. Поздравляю моих товарищей по команде, которые вложили свои сердца в получение этих результатов соревнований, и всех, кто вносит вклад в основное фундаментальное исследование, которое их позволяет!

Я чрезвычайно взволнован потенциалом верности и интерпретируемости цепочки мыслей. Это существенно повлияло на дизайн наших моделей рассуждений, начиная с o1-preview. Поскольку системы искусственного интеллекта тратят все больше вычислительных ресурсов на работу, например, на долгосрочные исследовательские задачи, крайне важно, чтобы у нас был какой-то способ мониторинга их внутренних процессов. Замечательное свойство скрытых CoT заключается в том, что, хотя они изначально основаны на языке, который мы можем интерпретировать, масштабируемая процедура оптимизации не препятствует способности наблюдателя проверить замысел модели — в отличие, например, от прямого наблюдения с моделью вознаграждения. Напряжение здесь заключается в том, что если бы CoT не были скрыты по умолчанию, и мы рассматриваем этот процесс как часть результатов работы ИИ, то у нас есть много стимулов (а в некоторых случаях и необходимость) для того, чтобы установить контроль над ним. Я верю, что здесь мы можем работать над лучшим из обоих миров - тренировать наши модели, чтобы они отлично объясняли свои внутренние рассуждения, но в то же время сохраняли способность время от времени проверять их. Верность CoT является частью более широкого исследовательского направления, которое заключается в обучении интерпретируемости: постановке целей таким образом, чтобы по крайней мере часть системы обучалась оставаться честной и контролируемой с помощью масштаба. Мы продолжаем увеличивать наши инвестиции в эти исследования в OpenAI.

Топ

Рейтинг

Избранное