Ik denk dat dit een provocatieve kijk is en een goede gedachte, maar ik wilde de redenering een beetje doornemen. Tegenwoordig draaien de meeste AI-tools in de cloud. Elke keer dat je een model vraagt om iets te schrijven, samen te vatten, te vertalen of te analyseren, komt die aanvraag terecht bij een GPU in een datacenter. Meer gebruikers → meer aanvragen → meer GPU's → meer datacenters → meer elektriciteitsleidingen, transformatoren, onderstations → meer generatie, enzovoort. Dat is de kern van de huidige AI-hardware + datacenter capex-boom. Nuttige inferentie op het apparaat verstoort die lineaire keten. Als een model met meerdere miljarden parameters efficiënt genoeg is om te draaien op de neurale chip in je telefoon, laptop, auto of headset, dan hoeft een groot deel van de dagelijkse taken nooit het apparaat te verlaten. Denk aan eenvoudige maar veelvoorkomende aanvragen: autocompleteren, e-mail opstellen, spraaktranscriptie, samenvatting, eenvoudige beeldherkenning. Dit zijn precies de veelvoorkomende, laag-complexiteit algemene aanvragen die waarschijnlijk het gebruik zullen domineren. Snelle controle op wat kan verschuiven: Eenvoudige aannames - pas aan zoals je wilt. -1B gebruikers × 50 aanvragen/dag × ~$0.002/aanvraag x 365 dagen = ~$35B/jaar aan cloud-inferentiekosten. -Als 30% daarvan op het apparaat verplaatst, is dat ~$11B+ aan jaarlijkse cloudvraag die nooit materialiseert. -De marginale kosten per lokale aanvraag zijn effectief ~$0 zodra het apparaat is verzonden. Normale kanttekeningen: hardware komt er wel, maar moet nog opschalen in geheugen, bandbreedte, enzovoort. Maar, een model met 3–7B parameters dat draait op de neurale chip van een telefoon (ongeveer 10–45 "TOPS" vandaag, 60+ geprojecteerd tegen 2027) zou die veelvoorkomende, laag-complexiteitstaken lokaal kunnen afhandelen. Je hebt geen modellen van grensformaat nodig voor elke prompt. Cloud blijft belangrijk, om heel duidelijk te zijn. Het trainen van grensmodellen, zware redenering met lange context, grote bedrijfswerkbelastingen, multi-agent coördinatie – dat alles blijft veel beter geschikt voor grote, gecentraliseerde datacenters. De belangrijkste verschuiving is dat de logische keten niet langer "iedere nieuwe gebruiker = ik moet meer GPU's en meer gigawatt datacentercapaciteit toevoegen." Onbekend hier is het argument van Jevons-paradox en of het meer AI-gebruik aanjaagt en gebruikers aanzet om naar meer complexe prompts te zoeken, wat een deel hiervan compenseert. In reactie op Aashay's punt, de capex-boom 'breekt' niet volledig, maar de huidige intensiteitstraject is zeer waarschijnlijk aangepast. Zelfs 5–30% van de inferentiewerkbelastingen van cloud naar apparaat verschuiven op de huidige schaal kan betekenisvol zijn. Moeilijke problemen blijven gecentraliseerd in de cloud. Maar "everyday AI" wordt een functie van de hardware die je al bezit in plaats van een gemeterde dienst die per aanvraag wordt gehuurd.