Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Bij Box besteden we veel tijd aan het testen van Box AI met nieuwe modellen op ongestructureerde gegevens om te zien waar ze goed presteren in echte kenniswerkgebieden.
Zoals we uit de benchmarks hebben gezien, biedt GPT-5 een significante sprong in capaciteit ten opzichte van GPT-4.1 in redeneren, wiskunde, logica, codering en andere werkgebieden. Hier zijn een paar voorbeelden van waar die verbeteringen in de echte wereld tot uiting komen:
*GPT 5 contextualiseert informatie beter. Bij het doen van gegevensextractie, zoals het uiteindelijke USD-bedrag op een factuur zonder valutalabels maar met een adres in Londen, reageert GPT 5 correct door te vragen om een wisselkoers van USD naar GBP. Ter vergelijking, GPT 4.1 zag de uiteindelijke rekening en gaf deze terug, ervan uitgaande dat de valuta (onjuist) was.
* GPT-5 levert betere multimodale analyses. Voor de jaarlijkse indiening van een beursgenoteerd bedrijf wordt GPT-5 gevraagd om een cel in een tabel te isoleren uit een afbeelding die veranderingen in de componenten van het eigen vermogen van het bedrijf toont. De bovenkant van de tabel verduidelijkt dat alle aandelenbedragen in duizenden zijn, en GPT-5 geeft deze conversie duidelijk aan, terwijl GPT-4.1 dat niet doet en in de war raakt omdat de tabel zegt 'aandelen' en de legenda 'aandelen' zegt.
* GPT-5 presteert beter met hoge niveaus van prompt- en gegevenscomplexiteit. Bij het doen van gegevensextractie op een cv voor alle startdata van banen, functietitels en werkgeversnamen, kon GPT-5 elk stuk gegevens ophalen, terwijl GPT-4.1 overweldigd leek te raken en niet dezelfde velden kon extraheren gezien de grootte van de prompt en de complexiteit van het document.
* GPT-5 is veel duidelijker en explicieter in zijn antwoorden. In een outsourcingovereenkomst met 6 verschillende diensten die expliciet zijn besproken, zal GPT-5, wanneer gevraagd naar "de 5 specifieke diensten in het contract", de eerste 5 teruggeven en vragen of het opzettelijk was dat de zesde niet werd gevraagd. Ter vergelijking, GPT-4.1 gaf simpelweg de eerste 5 terug zonder verdere kanttekeningen, wat kan leiden tot verwarring voor de gebruiker.
* GPT-5 is beter in het interpreteren van gegevens in complexe velden. Voor een flowcytometrie-diagram, dat typisch wordt gebruikt in de immunologie, identificeerde GPT-5 correct een hoog percentage dode cellen en gaf plausibele oorzaken die tot de situatie zouden kunnen leiden, terwijl GPT-4.1 minimale redenering gaf en verdere bevestiging nodig had om enige gissingen uit ruwe gegevens te doen.
* GPT-5 is beter in staat om inconsistenties in code te identificeren. Wanneer gevraagd wordt om problemen in een gegeven python-codebestand te identificeren, kunnen zowel GPT-5 als 4.1 echte fouten identificeren die leiden tot storingen, maar alleen GPT-5 kon subtielere problemen afleiden, zoals het afdrukken van de verkeerde variabele wanneer dat in de context van het programma geen zin zou maken.
Deze verbeteringen in wiskunde, redeneren, logica en kwaliteit van antwoorden in langere contextvensters zijn ongelooflijk nuttig voor eindgebruikers in hun dagelijkse werk, maar ze zullen nog meer opvallen met langerlopende AI-agenten, vooral wanneer er geen mens in de lus is om de informatie bij elke stap te verifiëren.
Het is geweldig om te zien dat deze verbeteringen blijven komen in de nieuwste generatie AI-modellen, aangezien dit zal leiden tot AI-agenten die in toenemende mate in cruciale werkgebieden kunnen worden gebruikt.
78,2K
Boven
Positie
Favorieten