Jeg synes dette er en provoserende holdning og en god tanke, men ønsket å jobbe litt gjennom begrunnelsen. I dag kjører de fleste AI-verktøy i skyen. Hver gang du ber en modell om å skrive, oppsummere, oversette eller analysere noe, treffer den forespørselen en GPU i et datasenter. Flere brukere → flere forespørsler → flere GPU-er → flere datasentre → flere strømlinjer, transformatorer, transformatorstasjoner → mer produksjon, osv. Det er kjernen i svinghjulet bak dagens AI-maskinvare + datasenter-capex-boom. Nyttig inferens på enheten forstyrrer denne lineære kjeden. Hvis en modell med flere milliardparametere er effektiv nok til å kjøre på den nevrale brikken inne i telefonen, laptopen, bilen eller headsettet ditt, trenger en stor del av hverdagsoppgavene aldri å forlate enheten. Tenk enkle, men store forespørsler: autofullføring, e-postutkast, stemmetranskripsjon, oppsummering, enkel bildegjenkjenning. Dette er nettopp de høyvolums, lavkompleksitets generelle spørringene som sannsynligvis vil dominere bruken. Rask sanssjekk på hva som kan skifte: Enkle antakelser – flex som du vil. -1 milliard brukere × 50 spørringer/dag × ~0,002 dollar/spørring x 365 dager = ~35 milliarder dollar/år i skyinferenskostnad. -Hvis 30 % av det flyttes på enheten, er det ~11 milliarder dollar+ i årlig skyetterspørsel som aldri materialiserer seg. -Marginalkostnad per lokal spørring er effektivt ~$0 når enheten er sendt. Vanlige forbehold: maskinvaren er på vei dit, men må fortsatt skalere opp minne, båndbredde osv. Men en 3–7B-parametermodell som kjører på en telefons nevrale brikke (omtrent 10–45 "TOPS" i dag, 60+ forventet innen 2027) kunne håndtere disse høyvolums- og lavkompleksitetsoppgavene lokalt. Du trenger ikke modeller i grenseskala for hver prompt. Cloud er fortsatt viktig, for å være veldig tydelig. Trening av frontier-modeller, tung lang-kontekst resonnering, store bedriftsarbeidsbelastninger, koordinering med flere agenter – alt dette er fortsatt mye bedre egnet for store, sentraliserte datasentre. Det viktigste skiftet er at logikkjeden ikke lenger er «hver ny bruker = jeg må legge til flere GPU-er og flere gigawatt datasenterkapasitet.» Her er Jevons paradoksargument ukjent og om det driver mer bruk av AI og får brukere til å søke mer komplekse prompts som motvirker noe av dette Som Aashay påpeker, 'bryter' ikke capex-boomen helt, men dens nåværende intensitetsbane er sannsynligvis endret. Å flytte selv 5–30 % av inferensarbeidsbelastningene fra skyen til enheten i dagens skala kan være meningsfullt. Vanskelige problemer forblir sentralisert i skyen. Men «hverdagslig AI» blir en funksjon i maskinvaren du allerede eier, i motsetning til et målt nettselskap som leies ut fra forespørselen.