Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Myslím, že je to provokativní pohled a dobrá myšlenka, ale chtěl jsem trochu projít důvody.
Dnes většina AI nástrojů běží v cloudu. Pokaždé, když požádáte model, aby něco napsal, shrnul, přeložil nebo analyzoval, tento požadavek narazí na GPU v datovém centru. Více uživatelů → více dotazů → více GPU, více datových center →→ více datových vedení, transformátorů, rozvoden → více výroby atd. To je jádro setrvačníku současného boomu AI hardwaru + kapitálových výdajů datových center.
Užitečná inference přímo na zařízení narušuje tento lineární řetězec.
Pokud je model s více miliardami parametrů dostatečně efektivní na to, aby běžel na nervovém čipu uvnitř vašeho telefonu, notebooku, auta nebo headsetu, pak velká část každodenních úkolů nemusí zařízení opustit. Představte si jednoduché, ale velké požadavky na objem: automatické doplňování, psaní e-mailů, přepis hlasu, shrnování, jednoduché rozpoznávání obrázků. Právě tyto obecné dotazy s vysokým objemem a nízkou složitostí pravděpodobně budou dominovat v používání.
Rychlá kontrola toho, co se může změnit: Jednoduché předpoklady – přizpůsobte se, jak chcete.
-1B uživatelů × 50 dotazů/den × ~0,002 $/dotaz x 365 dní = ~35 miliard dolarů/rok v nákladech na inferenci v cloudu.
-Pokud 30 % z toho přejde přímo na zařízení, je to ~11 miliard+ dolarů roční poptávky po cloudu, která se nikdy nenaplní.
-Mezní náklady na lokální dotaz jsou efektivně ~$0 po odeslání zařízení.
Běžná upozornění: hardware se k tomu blíží, ale stále potřebuje zvětšit paměť, šířku pásma atd. Ale model parametrů 3–7B běžící na neuronovém čipu telefonu (přibližně 10–45 "TOPS" dnes, 60+ předpokládaných do roku 2027) by mohl tyto vysoce objemové, nízkosložité úkoly zvládnout lokálně. Nepotřebujete modely v měřítku hranic pro každý prompt.
Cloud stále záleží, abychom byli jasní. Trénování frontier modelů, rozsáhlé uvažování v dlouhém kontextu, velké podnikové pracovní zátěže, koordinace více agentů – to vše je stále mnohem vhodnější pro velká, centralizovaná datová centra. Klíčový posun je, že logický řetězec už není "každý nový uživatel = musím přidat více GPU a více gigawattů kapacity datového centra." Není zde známý Jevonův paradoxní argument a zda vede k většímu využívání AI a nutí uživatele k hledání složitějších promptů, což některé z těchto problémů vyvažuje
Jak říká Aashay, boom kapitálových výdajů se úplně nezlomí, ale jeho současná intenzita je velmi pravděpodobně upravena. Přesun i 5–30 % inferenčních pracovních zátěží z cloudu na zařízení v dnešním měřítku může být smysluplný. Těžké problémy zůstávají centralizované v cloudu. Ale "každodenní AI" se stává funkcí hardwaru, který už vlastníte, oproti měřiné síti, kterou si pronajímá dotazník.
Top
Hodnocení
Oblíbené

