Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Ten artykuł z MIT po prostu mnie zszokował 🤯
Artykuł dotyczy "ARC" i całkowicie zmienił moje postrzeganie benchmarku.
Badacze nie traktowali ARC jak łamigłówki logicznej. Traktowali każde zadanie jako wizualną transformację.
Siatka wejściowa → siatka wyjściowa. Nic bardziej skomplikowanego.
Zbudowali mały Vision Transformer, wytrenowali go od podstaw na małym zbiorze danych ARC i użyli prostego triku z płótnem, aby umieścić każdy przykład jak obraz.
Następnie dodali zmiany skali, translacje i podstawowe priorytety wizualne, które można zobaczyć w klasycznej pracy nad wizją komputerową.
I to wszystko.
Brak łańcucha myślenia, brak podpowiedzi, brak sprytnych sztuczek symbolicznych.
Po prostu model patrzący na piksele i uczący się, jak kształty się poruszają, obracają, rosną, zapadają lub przenoszą.
Najdziksza część?
Ten mały model osiąga 54,5% samodzielnie i 60,4% w połączeniu z U-Net.
To jest mniej więcej na poziomie średniej wydajności ludzkiej z modelem, który mieści się w rozmiarze małej aplikacji mobilnej.
Widzenie ARC rozwiązane w ten sposób sprawia, że cały benchmark wydaje się inny.
Zadania nagle wyglądają jak mapowania obrazów zamiast ukrytych reguł. Zadania odbicia rzeczywiście wyglądają jak odbicia.
Zadania symetrii wyglądają jak symetria. Zadania grawitacyjne wyglądają jak kawałki „spadające” prosto w dół płótna.
Szczerze mówiąc, wciąż to przetwarzam.
To może być najbardziej realistyczny wynik ARC, jaki czytałem od lat, a pochodzi z traktowania benchmarku w najbardziej dosłowny sposób, w jaki ktokolwiek kiedykolwiek to zrobił.

3,25K
Anthropic właśnie uzyskał wyższy wynik niż każdy ludzki inżynier, którego kiedykolwiek testowali.
Claude Opus 4.5 zadebiutował wczoraj i pokonał GPT-5.1-Codex-Max, Gemini 3 Pro oraz każdego pojedynczego kandydata ludzkiego na ich wewnętrznym egzaminie z programowania.
Oto, o czym nikt nie mówi:

3,15K
Najpotężniejsi twórcy agentów AI 👇
1. n8n
2. LangChain
3. CrewAI
4. Twórca agentów OpenAI
Z którego korzystasz teraz?
Próbowałem wszystkich w rzeczywistych projektach, a n8n wciąż okazuje się najsilniejszym narzędziem na stole. Radzi sobie z prawdziwą pracą. Z chaotyczną pracą. Z pracą, która dotyka rzeczywistych systemów, zamiast żyć w bańce czatu.
Oto co sprawiło, że zdecydowałem się na to:
n8n pozwoliło mi budować agentów, którzy otwierają e-maile, czytają je, wyciągają przydatne dane i wysyłają je tam, gdzie powinny trafić. Pozwoliło mi połączyć tych agentów z CRM-ami, arkuszami kalkulacyjnymi, bazami danych, Slackiem, Notion, API i wszystkim innym, na czym opierały się moje przepływy pracy.
Mogłem układać kroki, budować pętle, powtarzać zadania i obserwować, jak wszystko działa z pełną widocznością.
LangChain dał mi elastyczność, ale przepływy pracy szybko się plątały.
CrewAI ułatwił wczesne eksperymenty, ale złożone procesy przekraczały jego możliwości.
Twórca agentów OpenAI ma potencjał, ale ściany szybko się pojawiają, gdy potrzebujesz głębszej kontroli.
n8n obsługiwało cały proces od rozumowania do działania, nie zmuszając mnie do budowania backendu ani ręcznego łączenia narzędzi. Sprawiło, że agent czuł się jak prawdziwy operator, a nie chatbot z dodatkowymi krokami.
Prawdziwa zmiana nastąpiła, gdy zobaczyłem, jak czysto mogę przekształcić pojedynczy przepływ pracy w coś powtarzalnego. Nie demo. Działający system. Coś, na czym firma może polegać każdego dnia.
Jeśli budujesz agentów w tym roku, platforma, którą wybierzesz, kształtuje wszystko.
Jestem więc ciekaw, z czego korzystasz i co sprawiło, że wybrałeś to.

4,24K
Najlepsze
Ranking
Ulubione

