Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Я читаю цей звіт від Anthropic про реальне використання Клода, і цифри вражають, як цеглина.
Вони переглянули 100 000 розмов.
Ось що мене зупинило:
Більшість завдань, які люди приносять Клоду, зазвичай займають близько 90 хвилин.
З Claude ці ж завдання завершуються на 80 відсотків швидше.
Це людина, яка щотижня економить години, навіть не докладаючи зусиль.
Потім звіт стає ще більшим.
Якщо застосувати ці досягнення по всій економіці США, лише сьогоднішні моделі підвищують продуктивність праці на 1,8 відсотка щороку протягом наступного десятиліття.
Майже вдвічі більше, ніж останнім часом.
І це не стосується кращих моделей.
Саме так люди вже зараз використовують Claude.
Можливо, це перший раз, коли ми бачимо вагомі докази того, що ШІ робить у реальних роботах.
Тиха зміна.
Величезний удар.
Вже відбувається.

2,53K
Ця стаття MIT просто вразила мене 🤯
Стаття присвячена «ARC», і вона повністю змінила мій погляд на бенчмарк.
Дослідники зовсім не розглядали ARC як логічну головоломку. Вони сприймали кожне завдання як візуальну трансформацію.
Сітка всередині → сітці назовні. Нічого складнішого.
Вони створили невеликий Vision Transformer, навчили його з нуля на крихітному наборі даних ARC і використали простий прийом на полотні, щоб розмістити кожен екземпляр як зображення.
Потім додали зміни масштабу, переклади та базові візуальні попередні, які можна побачити в класичних роботах комп'ютерного зору.
Ось і все.
Жодного ланцюга думок, жодних підказок, жодних хитрих символічних трюків.
Просто модель, що дивиться на пікселі і вивчає рух, перевертання форм, зростання, руйнування або перенесення.
Дика?
Ця маленька модель має 54,5% самостійне покриття і 60,4% у поєднанні з U-Net.
Це приблизно середній показник людської продуктивності з моделлю, яка підходить за розміром маленького мобільного додатку.
Коли ARC вирішено таким чином, весь бенчмарк відчувається інакше.
Завдання раптом виглядають як зображення, а не приховані правила. Завдання на рефлексію насправді виглядають як відображення.
Завдання на симетрію виглядають як симетрія. Гравітаційні завдання виглядають як частини, що «падають» прямо по полотну.
Чесно кажучи, я досі це осмислюю.
Це, мабуть, найприземленіший результат ARC, який я читав за останні роки, і він виник завдяки тому, що я ставився до бенчмарку буквально так, як це було у будь-кого.

3,58K
Найкращі
Рейтинг
Вибране


