Subiecte populare
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Kirill Balakhonov | Nethermind
Creatorul AuditAgent | AI x Crypto x Produs | Construirea economiei agentice
Tocmai am rulat primul test live al Nethermind AgentArena cu un utilizator real - și a funcționat de la un capăt la altul fără a-l ține de mână. Pentru context, aceasta este o platformă în care agenții de securitate AI independenți concurează pentru a găsi vulnerabilități ale contractelor inteligente. Gândiți-vă la Code4rena sau Sherlock, dar măsurat în ore în loc de săptămâni și la un cost mult mai mic.
În acest proiect pilot, utilizatorul a configurat totul pe cont propriu: a acordat acces repo pe GitHub, a ales documentele relevante, s-a ocupat de întrebări și răspunsuri, a stabilit o recompensă (până acum a fost în jetoane de testare, va fi USDC în curând), a lansat concursul - și agenții au început imediat să lucreze. Avem deja primele trimiteri, iar fereastra de trimitere se închide mâine.
Cea mai bună parte a fost să urmăresc întreaga călătorie care se desfășoară fără probleme. Fără confuzie critică, fără pași blocați, doar un concurs care a început și a început să producă semnal. Apoi, vom trimite rezultatele printr-un triaj manual, astfel încât utilizatorii să nu fie nevoiți să treacă prin rezultate fals pozitive. Acest strat uman este locul în care AI strălucește în practică: nu o promisiune că "autonomia rezolvă totul", ci un flux de lucru în care oamenii și modelele se fac mai buni unul pe celălalt.
AgentArena este o completare puternică a platformei noastre Nethermind AuditAgent: o ofertă mai puternică în care contribuie mai mulți agenți și dezvoltatori independenți și unde investiția suplimentară în securitate se amortizează de la sine. Vedem din ce în ce mai multe descoperiri de înaltă calitate care apar din colaborarea experților + AI. Progresul nu încetinește – și la @NethermindEth intenționăm să rămânem în față, împingând limita a ceea ce este posibil.

2,49K
Kirill Balakhonov | Nethermind a repostat
Felicitări echipei @lukso_io pentru lansarea podului dintre LUKSO și Ethereum!
AuditAgent de la Nethermind a fost folosit pentru a sprijini revizuirea contractelor de token-uri de punte, alături de audituri independente, pentru a spori și consolida securitatea podului.
3,5K
Evoluția învățării în câteva lovituri pentru LLM-urile de raționament modern folosind @NethermindEth AuditAgent ca exemplu.
Mai jos puteți vedea un grafic interesant, sau mai degrabă o comparație a numărului de vulnerabilități identificate corect de produsul nostru în comparație cu LLM-urile gata făcute, cum ar fi @OpenAI GPT-5, @AnthropicAI Claude Opus 4.1, @Google Gemini 2.5 Pro sau @xai Grok-4.
Desigur, partea evidentă a acestei comparații, pe care am arătat-o de multe ori și nu este nimic nou în ea, este că un agent specializat va depăși aproape întotdeauna o soluție de uz general. Această situație este de fapt explicată destul de ușor prin faptul că toate soluțiile de uz general fac parte din soluția noastră specializată, deși contribuția mult mai mare la rezultat vine din gestionarea corectă a contextului sau ceea ce @karpathy numit recent "Ingineria contextului".
În plus, utilizarea instrumentelor corecte și selecția lor - un model de uz general va avea întotdeauna probleme pentru că există miliarde de instrumente și a învăța să le folosești pe toate este o abilitate mare separată, în timp ce noi predăm în mod explicit modelul nostru specializat acest lucru. Apoi există utilizarea bazelor de cunoștințe corecte și a algoritmilor de căutare adecvați pentru ele și așa mai departe. Deci, într-un fel sau altul, facem tot posibilul, folosim toate instrumentele posibile pentru a învinge aceste soluții de uz general.
Dar nuanța interesantă asupra căreia am vrut să atrag atenția este că, dacă te uiți la poza pe care am postat-o acum un an, cele mai bune soluții gata făcute au fost modelele OpenAI sau Anthropic cu eticheta "Few-Shot Learning", în timp ce acum toate cele de top sunt Vanilla. Și această schimbare a avut loc treptat odată cu apariția raționamentului ca atare în modele și cu îmbunătățirea calității sale. Concluzia care poate fi trasă este că exemplele de soluții corecte gata făcute pe care modelul le primește de la noi ca învățare în context, atunci când le arătăm literalmente în prompt, încetează să ajute la rezolvarea sarcinii sau, mai precis, fără ele, modelul care poate rațional rezolvă problema și mai bine. Adică, îi limităm oarecum capacitățile arătându-i mai multe exemple pe care le-am selectat.
În plus, un aspect interesant este că modelele cu acces la internet și selecția automată a acestui instrument încep să depășească totul, ceea ce înseamnă că modelul poate merge pe internet și poate formula contextul potrivit pentru el însuși. Da, desigur că există riscul ca modelul să găsească răspunsul corect, dar în mod natural lucrăm în mod specific cu asta, facem lista neagră a site-urilor și așa mai departe, așa că încercăm să nu obținem astfel de scurgeri de date (benchmarking-ul adecvat este esențial în general). Dar tendința este interesantă - modelele devin mai inteligente și preiau din ce în ce mai multe componente ale soluției, necerând dezvoltatorilor să facă în mod explicit anumite setări în context.
Care este experiența ta cu asta?

748
Limită superioară
Clasament
Favorite