Software

Hardware AI, scaling infinito stop. Repricing in arrivo

9 Aprile 2026

L’innovazione nei chip e negli algoritmi ridisegna domanda, efficienze e mercato GPU, spingendo gli investitori a rivedere modelli e strategie. Il paradigma “the bigger, the better” al capolinea

Capire la tecnologia per capire il mercato resta, anche in questa fase dell’AI, l’unico modo serio per non farsi travolgere dalla narrazione del momento. E sappiamo bene che negli ultimi mesi quella narrativa ha ricominciato a parlare soprattutto la lingua della geopolitica. Con il ritorno di Donald Trump alla Casa Bianca, l’espressione “chip wars” è entrata nei documenti ufficiali e nei commenti di analisti e politici. Si continua a discutere di nuovi controlli sulle esportazioni di chip avanzati e di una possibile revisione delle politiche industriali degli Stati Uniti. In questo contesto, è diventato quasi automatico attribuire a Washington o a Pechino ogni movimento del settore dei semiconduttori.

Nel mio precedente articolo, “L’AI oltre la bolla, i limiti strutturali dei LLM”, avevo provato a spostare il punto di osservazione. Il punto non è stabilire se l’AI sia una bolla finanziaria, ma valutare la solidità del paradigma tecnologico sottostante. Il mito dello scaling infinito, l’idea che basti aumentare parametri, dati e potenza di calcolo per ottenere sistemi migliori, funziona fino a un certo punto. Oltre, emergono vincoli molto concreti, legati ai costi, all’energia e soprattutto alla memoria. Quello che è successo nelle ultime settimane sui titoli legati all’hardware AI sembra andare esattamente in questa direzione.

ATTENZIONE ALL’EFFICIENZA

Se si guarda al quadro generale, l’indice PHLX Semiconductor resta su livelli storicamente elevati dopo un rally molto significativo su base annua. Qualcosa però è cambiato. Perché dopo aver toccato nuovi massimi, l’indice ha registrato una correzione significativa. Non è un’inversione strutturale, ma sufficiente per incrinare la certezza che l’AI garantisca automaticamente una crescita lineare dei ricavi per tutto il settore. Il caso di Micron Technology è diventato emblematico.

Il titolo ha subito un calo nel corso di più sedute consecutive, arrivando a una perdita cumulata in doppia cifra. Una parte del movimento è stata collegata direttamente a un annuncio di Google.

Non si tratta di una nuova infrastruttura o di una GPU più potente, ma del nuovo algoritmo TurboQuant, che agisce su un elemento molto specifico dei modelli linguistici: la key-value cache, che permette di mantenere il contesto. Le prime analisi indicano che TurboQuant riesce a comprimere questa memoria fino a livelli estremi, arrivando a una rappresentazione a 3 bit e riducendo il consumo complessivo fino a un fattore di sei, senza perdita evidente di performance nei benchmark mostrati.

Tradotto in termini pratici, significa che la stessa GPU può fare molto di più. Può gestire più richieste, più contesto, modelli più lunghi, senza bisogno di aumentare proporzionalmente la memoria installata. È esattamente il tipo di innovazione che emerge quando il paradigma dello scaling “a forza bruta” inizia a mostrare i suoi limiti. Invece di aggiungere continuamente hardware, si inizia a lavorare sull’efficienza. Si comprime, si ottimizza, si riduce lo spreco.

Il mercato però ha reagito in modo quasi istintivo, leggendo questa evoluzione come un segnale negativo. Perché se basta un algoritmo per ridurre drasticamente il fabbisogno di memoria, allora la domanda futura di DRAM e HBM potrebbe non essere così lineare come si pensava. Non a caso, il movimento non ha riguardato solo Micron. Nelle stesse giornate si sono visti ribassi anche su Western Digital, Seagate Technology e Samsung Electronics: proprio quelle aziende che più avevano beneficiato della narrazione, secondo cui l’AI avrebbe consumato memoria senza limiti.

Esiste però anche una lettura diversa, che alcuni analisti hanno già iniziato a considerare. Una maggiore efficienza non necessariamente riduce il mercato complessivo. In molti casi lo espande, perché abbassa i costi e rende la tecnologia accessibile a un numero più ampio di applicazioni. È un meccanismo noto in economia, spesso associato al paradosso di Jevons.

Il fatto che il mercato abbia reagito in senso opposto dice probabilmente molto anche sul posizionamento degli investitori e sui livelli di valutazione raggiunti dopo il rally degli ultimi mesi. Se si torna al punto di partenza, il collegamento è abbastanza chiaro. Il paradigma “the bigger, the better” ha funzionato finché i costi marginali restavano gestibili. Oltre una certa soglia, ogni miglioramento richiede un aumento sproporzionato delle risorse. Tecniche come TurboQuant nascono proprio per affrontare questo passaggio. Perché se non posso continuare a scalare all’infinito, devo usare in maniera più efficiente le risorse che dispongo.

CAUSE E FRAINTENDIMENTI

Per il mercato questo passaggio è tutt’altro che neutrale. Chi ha costruito le proprie aspettative sulla convinzione che l’AI avrebbe assorbito qualunque capacità produttiva disponibile, deve iniziare a rivedere i propri modelli. La variabile rilevante non è più solo quanta domanda ci sarà in assoluto, ma quante risorse saranno necessarie per generare una certa quantità di valore. Tutto questo si inserisce in un contesto globale che resta comunque complesso.

L’amministrazione Trump ha già mostrato l’intenzione di intervenire nuovamente sui controlli dell’export e di usare la tecnologia come leva geopolitica. Allo stesso tempo, torna il tema dell’indipendenza della Federal Reserve System, con pressioni più visibili sulla politica monetaria rispetto al passato. Tutti questi fattori contribuiscono all’incertezza complessiva. Ma ridurre quello che sta accadendo a una semplice conseguenza della geopolitica rischia di essere fuorviante. La causa che ha innescato il repricing recente è, in larga parte, tecnologica. È la presa d’atto che la traiettoria dell’AI potrebbe non coincidere con una crescita illimitata e lineare della domanda di hardware.

In questo contesto, l’idea di un “rating tecnologico” delle aziende AI diventa sempre più rilevante. Integrare nelle valutazioni una comprensione minima delle architetture, dei vincoli tecnici e delle direzioni della ricerca non è più un esercizio accademico. È una necessità. Guardando avanti, lo scenario appare meno lineare rispetto a quello raccontato nella prima fase dell’hype. È probabile che l’AI continui ad espandersi e a sostenere una domanda elevata di infrastrutture. Allo stesso tempo, è altrettanto probabile che ogni modello diventi progressivamente più efficiente, riducendo il fabbisogno unitario di memoria e calcolo.

Anche nelle community tecniche online questo tema inizia a emergere con maggiore chiarezza. Nelle discussioni su Reddit dedicate a TurboQuant e alla gestione della key-value cache, l’attenzione si concentra sempre più su VRAM, costo di inferenza, lunghezza del contesto ed efficienza d’uso dell’hardware, più che sulla corsa ad acquistare nuova capacità. Non è ancora la prova di un cambio di paradigma, ma la tendenza è molto interessante: il dibattito tecnico si sta spostando dall’abbondanza di risorse alla loro ottimizzazione.

La vera domanda riguarda quanta potenza servirà all’AI e quanto efficientemente sarà in grado di utilizzarla. Ed è su questo terreno, più che su quello geopolitico, che si giocherà il prossimo repricing del settore.

Hardware AI, scaling infinito stop. Repricing in arrivo

L’innovazione nei chip e negli algoritmi ridisegna domanda, efficienze e mercato GPU, spingendo gli investitori a rivedere modelli e strategie. Il paradigma “the bigger, the better” al capolinea

TI PIACE QUESTO ARTICOLO?

ATTENZIONE ALL’EFFICIENZA

CAUSE E FRAINTENDIMENTI

WEB COVER

Data center, Mitsubishi Electric: «Partita strategica per l’Europa»

NovaNext, la rete che pensa il business