Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Connor Davis
Ik lees dit rapport van Anthropic over het echte gebruik van Claude en de cijfers komen binnen als een baksteen.
Ze hebben 100.000 gesprekken geanalyseerd.
Hier is het deel dat me stopte:
De meeste taken die mensen aan Claude voorleggen, duren normaal gesproken ongeveer 90 minuten.
Met Claude worden diezelfde taken 80 procent sneller afgerond.
Dat is iemand die elke week uren bespaart zonder zelfs maar te proberen.
Dan gaat het rapport verder.
Als je deze winsten toepast op de Amerikaanse economie, verhogen de huidige modellen alleen al de arbeidsproductiviteit met 1,8 procent per jaar voor het komende decennium.
Bijna het dubbele van het recente tempo.
En dit omvat geen betere modellen.
Dit is gewoon hoe mensen Claude op dit moment al gebruiken.
Dit zou de eerste keer kunnen zijn dat we hard bewijs zien van wat AI doet binnen echte banen.
Stille verschuiving.
Massale impact.
Het gebeurt al.

2,08K
Dit MIT-rapport heeft me gewoon omvergeblazen 🤯
Het rapport gaat over "ARC" en het heeft volledig veranderd hoe ik de benchmark zie.
De onderzoekers behandelden ARC helemaal niet als een logisch raadsel. Ze beschouwden elke taak als een visuele transformatie.
Raster in → raster uit. Niets ingewikkelder dan dat.
Ze bouwden een kleine Vision Transformer, trainden deze vanaf nul op de kleine dataset van ARC, en gebruikten een eenvoudige canvas-truc om elk voorbeeld als een afbeelding te plaatsen.
Vervolgens voegden ze schaalveranderingen, vertalingen en basis visuele prioren toe die je zou zien in klassiek computer vision-werk.
Dat is het.
Geen chain-of-thought, geen prompts, geen slimme symbolische trucs.
Gewoon een model dat naar pixels kijkt en leert hoe vormen bewegen, draaien, groeien, ineenstorten of overdragen.
Het wilde deel?
Dit kleine model behaalt 54,5% alleen en 60,4% wanneer het gecombineerd wordt met een U-Net.
Dat is ongeveer gelijk aan de gemiddelde menselijke prestatie met een model dat past in de grootte van een kleine mobiele app.
ARC op deze manier opgelost zien, maakt de hele benchmark anders aanvoelen.
De taken lijken plotseling op afbeeldingsmappingen in plaats van verborgen regels. Reflectietaken zien er daadwerkelijk uit als reflecties.
Symmetrietaken zien eruit als symmetrie. Zwaartekracht-taken zien eruit als stukken die "recht naar beneden" op het canvas "vallen".
Ik ben eerlijk gezegd nog steeds aan het verwerken.
Dit zou wel eens het meest onderbouwde ARC-resultaat kunnen zijn dat ik in jaren heb gelezen en het kwam voort uit het meest letterlijke behandelen van de benchmark dat iemand ooit heeft gedaan.

3,56K
Boven
Positie
Favorieten


