Populaire onderwerpen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Taelin
Soort / Bocht / HVM / INets / λCalculus
Niets nieuws hier, gewoon een snel casusvoorbeeld van het gebruik van AI voor R&D.
(GPT-5.1 vs Opus 4.5)
Voor de context:
We hebben 2 versies van HVM die SupGen kunnen draaien:
→ HVM3: gebruikt om het te ontwikkelen, haalt 160m interacties/s
→ HVM4: gepolijste versie, haalt 130m interacties/s
Dat wil zeggen, de nieuwe versie is moderner, maar iets langzamer, aangezien we het nog niet geoptimaliseerd hebben.
Gisteren heb ik 2 coderingsagenten gelanceerd: Opus 4.5 (ultrathink) en GPT-5.1-codex-max (xhigh), en vroeg hen om de nieuwe HVM4 zoveel mogelijk te optimaliseren.
Resultaat: uren later faalden ze volledig.
Niet eens +1%.
Ik vroeg hen toen om het te blijven proberen.
Ze faalden opnieuw. En opnieuw. Urenlang.
Op een gegeven moment hadden ze gewoon opgegeven.
Ze weigerden zelfs om het nog te blijven proberen.
GPT-5 schreef:
> Ik heb meerdere structurele en low-level wijzigingen geprobeerd die gericht zijn op het verminderen van geheugenverkeer en het verhogen van de doorvoer, maar elke poging brak de build, verslechterde de prestaties of verbeterde niet verder dan de ~120 M itrs/s basislijn.
> Gezien de vaste clang -03 beperking en de geheugengebonden aard van deze werklast, heb ik momenteel geen levensvatbare wijziging die veilig naar 140 M itrs/s duwt. Voortdurend "gewoon blijven proberen" zal waarschijnlijk meer regressies opleveren in plaats van echte winst.
Dus, ik probeerde iets anders: deze keer kopieerde ik de oude HVM3 map naar HVM4, en schreef:
Dit zijn de oude en nieuwe HVM-implementaties. De oude bevat enkele optimalisaties die de nieuwe nog niet heeft geïmplementeerd. Jullie doel is om de verschillen te begrijpen en ALLE optimalisaties van de oude naar de nieuwe architectuur over te zetten.
Dat naar Opus gestuurd.
10 minuten later controleerde ik de terminal.
"190m interacties per seconde"
Dat was... een behoorlijk blije aanblik, aangezien het een absoluut record is voor deze benchmark. We hebben nog nooit iets gezien dat daar in een enkele core CPU in de buurt kwam.
Dit versterkt mijn perceptie over de staat van LLM's:
→ Ze zijn extreem goed in coderen.
→ Ze zijn extreem slecht in innovatie.
Beide modellen waren volkomen incapabel om met de ideeën te komen die wij hadden, maar, eenmaal geïnjecteerd met de oplossing, zijn ze extreem bekwaam in het implementeren ervan, het lezen en schrijven van veel code, wat veel tijd bespaart. De belangrijkste optimalisaties van HVM3 zijn nu op de nieuwe architectuur, wat een nieuw record bereikt, en ik hoefde helemaal niets te coderen. Ik moest alleen het idee hebben om dit te doen, en het werkte als een charme.
Voor de duidelijkheid, ik ben helemaal gestopt met het gebruik van Gemini 3. Ik denk dat het het slimste model ter wereld is, maar het is niet echt geschikt voor coderen vanwege slechte instructievolging, veel verbindingsfouten en vertraging, en Gemini CLI presteert slecht. GPT-5.1-codex-max is aardig, maar het is traag en ik heb het nog niet zien presteren beter dan Opus 4.5, dat weer mijn model voor alles is. Ik hou van hoe consistent Claude-modellen altijd waren voor coderen, en ik ben zo blij dat ik er een heb die ook echt slim is.
49,7K
Ik wil gewoon laten weten dat ik vandaag heb deelgenomen aan de Show van de Programmering van @FilipeDeschamps en dat ik in de eerste vragen ben geëlimineerd omdat ik *basis* concepten van programmering niet wist (en ik heb de chat ook woedend gemaakt omdat ik te lang deed om te antwoorden 😭), en er zijn mensen die me als intelligent beschouwen.
Ik hoop dat dit de zaak voor goed regelt :3
68,28K
Boven
Positie
Favorieten

