Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Jeg synes dette er en provoserende holdning og en god tanke, men ønsket å jobbe litt gjennom begrunnelsen.
I dag kjører de fleste AI-verktøy i skyen. Hver gang du ber en modell om å skrive, oppsummere, oversette eller analysere noe, treffer den forespørselen en GPU i et datasenter. Flere brukere → flere forespørsler → flere GPU-er → flere datasentre → flere strømlinjer, transformatorer, transformatorstasjoner → mer produksjon, osv. Det er kjernen i svinghjulet bak dagens AI-maskinvare + datasenter-capex-boom.
Nyttig inferens på enheten forstyrrer denne lineære kjeden.
Hvis en modell med flere milliardparametere er effektiv nok til å kjøre på den nevrale brikken inne i telefonen, laptopen, bilen eller headsettet ditt, trenger en stor del av hverdagsoppgavene aldri å forlate enheten. Tenk enkle, men store forespørsler: autofullføring, e-postutkast, stemmetranskripsjon, oppsummering, enkel bildegjenkjenning. Dette er nettopp de høyvolums, lavkompleksitets generelle spørringene som sannsynligvis vil dominere bruken.
Rask sanssjekk på hva som kan skifte: Enkle antakelser – flex som du vil.
-1 milliard brukere × 50 spørringer/dag × ~0,002 dollar/spørring x 365 dager = ~35 milliarder dollar/år i skyinferenskostnad.
-Hvis 30 % av det flyttes på enheten, er det ~11 milliarder dollar+ i årlig skyetterspørsel som aldri materialiserer seg.
-Marginalkostnad per lokal spørring er effektivt ~$0 når enheten er sendt.
Vanlige forbehold: maskinvaren er på vei dit, men må fortsatt skalere opp minne, båndbredde osv. Men en 3–7B-parametermodell som kjører på en telefons nevrale brikke (omtrent 10–45 "TOPS" i dag, 60+ forventet innen 2027) kunne håndtere disse høyvolums- og lavkompleksitetsoppgavene lokalt. Du trenger ikke modeller i grenseskala for hver prompt.
Cloud er fortsatt viktig, for å være veldig tydelig. Trening av frontier-modeller, tung lang-kontekst resonnering, store bedriftsarbeidsbelastninger, koordinering med flere agenter – alt dette er fortsatt mye bedre egnet for store, sentraliserte datasentre. Det viktigste skiftet er at logikkjeden ikke lenger er «hver ny bruker = jeg må legge til flere GPU-er og flere gigawatt datasenterkapasitet.» Her er Jevons paradoksargument ukjent og om det driver mer bruk av AI og får brukere til å søke mer komplekse prompts som motvirker noe av dette
Som Aashay påpeker, 'bryter' ikke capex-boomen helt, men dens nåværende intensitetsbane er sannsynligvis endret. Å flytte selv 5–30 % av inferensarbeidsbelastningene fra skyen til enheten i dagens skala kan være meningsfullt. Vanskelige problemer forblir sentralisert i skyen. Men «hverdagslig AI» blir en funksjon i maskinvaren du allerede eier, i motsetning til et målt nettselskap som leies ut fra forespørselen.
Topp
Rangering
Favoritter

