Trendaavat aiheet
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Meillä on liikaa vertailukohtia mallintamiskyvylle ja liian vähän agenttityölle. Taloudellisesti yhä tärkeämpää ei ole tekoälyjen kyky vastata kysymykseen oikein API-kutsun kautta, vaan pikemminkin sen kyky yhdistää työkaluja ja kyky ratkaista ongelma. Se on aliarvioitua.
Malli, joka on heikompi kyvyltään, mutta pystyy selvittämään, milloin se on väärässä ja on hyvä käyttämään muita lähestymistapoja heikkoutensa voittamiseksi, on paljon käytännöllisempi kuin malli, joka saa muutaman pisteen korkeammat pisteet ihmiskunnan viimeisessä kokeessa. Mutta vertailuanalyysimme ei näe tätä.
Tarvitsemme myös parempaa vertailua, joka osoittaa, MIKSI agenttiset kyvyt hajoavat. Esimerkiksi näkö on mallien ilmeinen heikko kohta, joka selittää monet agenttien epäonnistumiset vuorovaikutuksessa todellisen maailman kanssa. Mutta niin ovat myös "tuomiosilmukat", joissa tekoäly yrittää jatkuvasti samaa asiaa.
Se, että kuvitteellisen myyntiautomaatin käyttäminen on tärkeä vertailukohta, jota käytetään suurten uusien tekoälymallien julkistamisessa, osoittaa, missä olemme. Se ei ole huono testi (se on todella mielenkiintoista), mutta ei ole selvää, mitä se mittaa, ja tarvitsemme myös paljon enemmän erilaisia tehtäviä.
30,53K
Johtavat
Rankkaus
Suosikit

