Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jakub Pachocki
Открытый ИИ
На прошлой неделе наши модели рассуждений приняли участие в Международном студенческом конкурсе программирования (ICPC) 2025 года, который является ведущим университетским соревнованием по программированию в мире. Наша система решила все 12 из 12 задач, что обеспечило бы первое место в мире (лучшая команда из людей решила 11 задач).
Этот этап завершает интенсивные 2 месяца выступлений наших моделей на соревнованиях:
- Второе место на Всемирном финале AtCoder Heuristics
- Золотая медаль на Международной математической олимпиаде
- Золотая медаль на Международной олимпиаде по информатике
- И теперь, золотая медаль, первое место на Всемирном финале ICPC.
Я считаю, что эти результаты, полученные от семейства общих моделей рассуждений, основанных на нашей основной исследовательской программе, возможно, являются самым ясным показателем прогресса в этом году. Эти соревнования являются отличными самодостаточными, ограниченными по времени тестами на способность открывать новые идеи. Даже до того, как наши модели стали proficient в простой арифметике, мы смотрели на эти конкурсы как на вехи прогресса к трансформирующему искусственному интеллекту.
Теперь наши модели занимают место среди лучших людей в этих областях, когда им задаются четко сформулированные вопросы и ограничиваются ~5 часами. Теперь задача заключается в переходе к более открытым проблемам и гораздо более длительным временным рамкам. Этот уровень способности рассуждения, применяемый на протяжении месяцев и лет к действительно важным проблемам, является тем, к чему мы стремимся - автоматизация научного открытия.
Этот быстрый прогресс также подчеркивает важность исследований в области безопасности и согласования. Нам все еще нужно больше понимания свойств согласования долгосрочных моделей рассуждений; в частности, я рекомендую ознакомиться с увлекательными выводами из исследования схем в моделях рассуждений, которые мы опубликовали сегодня.
Поздравляю моих товарищей по команде, которые вложили свои сердца в получение этих результатов соревнований, и всех, кто вносит вклад в основное фундаментальное исследование, которое их позволяет!

Mostafa Rohaninejad18 сент. 2025 г.
1/n
I’m really excited to share that our @OpenAI reasoning system got a perfect score of 12/12 during the 2025 ICPC World Finals, the premier collegiate programming competition where top university teams from around the world solve complex algorithmic problems. This would have placed it first among all human participants. 🥇🥇

679,77K
Я чрезвычайно взволнован потенциалом верности и интерпретируемости цепочки мыслей. Это существенно повлияло на дизайн наших моделей рассуждений, начиная с o1-preview.
Поскольку системы искусственного интеллекта тратят все больше вычислительных ресурсов на работу, например, на долгосрочные исследовательские задачи, крайне важно, чтобы у нас был какой-то способ мониторинга их внутренних процессов. Замечательное свойство скрытых CoT заключается в том, что, хотя они изначально основаны на языке, который мы можем интерпретировать, масштабируемая процедура оптимизации не препятствует способности наблюдателя проверить замысел модели — в отличие, например, от прямого наблюдения с моделью вознаграждения.
Напряжение здесь заключается в том, что если бы CoT не были скрыты по умолчанию, и мы рассматриваем этот процесс как часть результатов работы ИИ, то у нас есть много стимулов (а в некоторых случаях и необходимость) для того, чтобы установить контроль над ним. Я верю, что здесь мы можем работать над лучшим из обоих миров - тренировать наши модели, чтобы они отлично объясняли свои внутренние рассуждения, но в то же время сохраняли способность время от времени проверять их.
Верность CoT является частью более широкого исследовательского направления, которое заключается в обучении интерпретируемости: постановке целей таким образом, чтобы по крайней мере часть системы обучалась оставаться честной и контролируемой с помощью масштаба. Мы продолжаем увеличивать наши инвестиции в эти исследования в OpenAI.

Bowen Baker16 июл. 2025 г.
Современные модели рассуждений мыслят на простом английском языке.
Мониторинг их мыслей может стать мощным, но хрупким инструментом для надзора за будущими системами ИИ.
Я и исследователи из многих организаций считаем, что мы должны работать над оценкой, сохранением и даже улучшением отслеживаемости CoT.

264,79K
Топ
Рейтинг
Избранное

