Quando le macchine impararono a ricordare

di Achille De Tommaso

La radice svizzera della memoria artificiale, da Lugano al ritorno delle reti ricorrenti.

Nel maggio del 1997 il mondo guardava una sola macchina. A New York il calcolatore Deep Blue di IBM batteva Garry Kasparov, campione del mondo di scacchi, e i giornali parlavano di una soglia varcata. Quella macchina, per quanto formidabile, non ricordava nulla (*). Analizzava ogni posizione da capo, milioni di mosse al secondo, senza conservare memoria della partita. Nello stesso anno, lontano dai riflettori, una rivista scientifica pubblicava un lavoro destinato a incidere molto più a fondo sul nostro presente. Si intitolava Long Short-Term Memory, portava la firma di Sepp Hochreiter e Jürgen Schmidhuber, e insegnava per la prima volta a una rete neurale a ricordare in modo affidabile. Buona parte di quella ricerca era maturata in Svizzera, a Lugano.

***

La coincidenza è quasi simbolica. Nello stesso anno in cui una macchina puramente reattiva conquistava i titoli senza trattenere nulla, nel Ticino prendeva forma la tecnica che avrebbe dato alle reti la capacità di trattenere l'informazione lungo il tempo. La prima fece notizia per un giorno, la seconda lavora ancora dentro molti degli strumenti che usiamo.

Il problema di chi non sa ricordare

Per capire la portata di quel lavoro bisogna ricordare un ostacolo che per anni aveva bloccato le reti neurali ricorrenti, cioè quelle pensate per elaborare sequenze, dal parlato al testo. In teoria una rete ricorrente conserva traccia degli ingressi passati. In pratica, quando si cerca di addestrarla, il segnale di errore che dovrebbe correggerla si attenua in modo esponenziale mentre risale indietro nel tempo, fino a svanire. Più la sequenza è lunga, più la rete dimentica. Era il cosiddetto problema del gradiente che svanisce.

A diagnosticarlo con precisione fu Sepp Hochreiter nel 1991, nella sua tesi di laurea seguita da Schmidhuber, un testo che lo stesso Schmidhuber avrebbe poi indicato tra i più importanti nella storia dell'apprendimento automatico. La diagnosi apriva la strada alla cura. La risposta fu la Long Short-Term Memory: una cella di memoria protetta, attraversata da un flusso di errore mantenuto costante, e governata da una serie di porte che decidono cosa far entrare, cosa conservare e cosa lasciar uscire. Non una memoria vaga, ma un meccanismo regolato per ricordare e per dimenticare al momento giusto. La versione standard dell'architettura, quella con la porta di dimenticanza ancora oggi citata, fu messa a punto all'IDSIA nel 2000 da Felix Gers, Schmidhuber e Fred Cummins.

Un istituto nato da un visionario

Il luogo in cui questa storia si radica merita attenzione, perché racconta un modo svizzero di fare ricerca. L'IDSIA, l'Istituto Dalle Molle di studi sull'intelligenza artificiale, fu fondato a Lugano nel 1988 da Angelo Dalle Molle (1908-2002), imprenditore e filantropo italiano, precursore della mobilità elettrica e dell'auto condivisa, che attraverso una fondazione svizzera volle promuovere una ricerca scientifica libera dai vincoli burocratici delle istituzioni accademiche tradizionali. Dal 2000 l'IDSIA è diventato un istituto di ricerca pubblico, affiliato all'Università della Svizzera italiana (USI) e alla Scuola universitaria professionale della Svizzera italiana (SUPSI), di cui fa da ponte.

È nella Svizzera italiana, dunque, nel gruppo guidato da Schmidhuber, che l'architettura della memoria artificiale ha trovato terreno per maturare. Un dettaglio che vale la pena tenere a mente quando si parla di intelligenza artificiale come di un fenomeno esclusivamente americano o asiatico: alcune delle sue fondamenta concettuali sono europee, e una porzione precisa è elvetica (**).

Vent'anni di dominio silenzioso

Per gran parte degli anni Dieci la LSTM è stata la tecnica dominante per l'elaborazione del linguaggio, la spina dorsale dei primi sistemi capaci di trattare il testo e il parlato su larga scala. Era una tecnologia che usavamo senza saperlo. Il riconoscimento vocale degli assistenti come Siri e Alexa, la traduzione automatica, i sistemi vocali dei grandi servizi online poggiavano in larga misura su reti ricorrenti basate su quella stessa idea nata negli anni Novanta. La memoria artificiale era entrata nella vita quotidiana in punta di piedi, senza che quasi nessuno ne conoscesse il nome o l'origine.

L'eclissi e l'arrivo del Transformer

Nel 2017 lo scenario cambiò. Un gruppo di ricercatori pubblicò il lavoro che introduceva l'architettura Transformer, fondata su un meccanismo di attenzione capace di pesare tutte le parti di una sequenza in parallelo, invece che una dopo l'altra. Il Transformer si addestrava meglio sulle grandi quantità di dati, coglieva relazioni a distanza con più efficacia e si prestava alla scala. Su questa architettura sono costruiti i grandi modelli linguistici che conosciamo oggi, da ChatGPT a Mistral, da Gemini a Llama. La LSTM, dopo vent'anni, passava in secondo piano. La ricorrenza cedeva il passo all'attenzione.

Il ritorno delle reti ricorrenti

La storia, però, non era chiusa. Nel maggio del 2024, più di trent'anni dopo la diagnosi del 1991, Hochreiter ha presentato con un gruppo di ricerca a Linz, in Austria, una nuova architettura chiamata xLSTM, Extended Long Short-Term Memory. L'obiettivo dichiarato è ambizioso: riportare le reti ricorrenti al livello dei migliori Transformer, correggendone i limiti storici. Le novità principali sono una memoria a matrice e un sistema di porte a comportamento esponenziale, insieme a un addestramento parallelizzabile. Il vantaggio che gli autori rivendicano è di efficienza: il costo cresce in modo lineare con la lunghezza della sequenza, mentre nei Transformer cresce in modo quadratico. Sulle sequenze molto lunghe, è una differenza che pesa.

Vale la precisione geografica: la radice della LSTM è svizzera, nel gruppo di Schmidhuber a Lugano, mentre il recente rilancio è austriaco, attorno a Hochreiter, che di Schmidhuber fu allievo, oggi a Linz con la sua iniziativa per costruire modelli linguistici europei. È lo stesso filo, europeo, che torna a tendersi. La memoria delle macchine, data per superata, si ripresenta come terreno aperto.

La memoria come frontiera

Tutto questo non è solo storia della tecnica. La memoria è esattamente l'asse lungo cui l'intelligenza artificiale si sta ancora muovendo. I sistemi che usiamo oggi sfruttano la storia recente, ad esempio la conversazione in corso, ma non costruiscono una memoria permanente e autonoma. Restano, per usare una classificazione ormai diffusa, al livello della memoria limitata. La domanda che la LSTM affrontò per prima, come una macchina conserva e usa il passato, è di nuovo al centro: memoria persistente, agenti capaci di operare nel tempo, contesti sempre più lunghi. La direzione di marcia passa ancora dal problema posto in Ticino negli anni Novanta.

C'è qualcosa di istruttivo nel fatto che la tecnica che insegnò alle macchine a ricordare rischi di essere dimenticata da noi. Una parte, forse piccola, ma reale della storia di come le macchine hanno imparato a trattenere il passato è stata scritta nella Svizzera italiana. Vale la pena ricordarlo.

Fonti

Il lavoro fondativo è S. Hochreiter, J. Schmidhuber, Long Short-Term Memory, Neural Computation, vol. 9, 1997; la denominazione era stata introdotta in un rapporto tecnico del 1995 e il problema del gradiente che svanisce era stato analizzato nella tesi di Hochreiter del 1991. L'architettura standard con porta di dimenticanza è descritta in F. Gers, J. Schmidhuber, F. Cummins (2000), sviluppata presso l'IDSIA. Sull'istituto: IDSIA, USI-SUPSI, fondato a Lugano nel 1988 da Angelo Dalle Molle (www.idsia.ch). Sull'architettura Transformer: A. Vaswani et al., Attention Is All You Need, 2017. Sul rilancio recente: M. Beck, K. Pöppel et al. (con S. Hochreiter), xLSTM: Extended Long Short-Term Memory, 2024 (arXiv 2405.04517; NeurIPS 2024), sviluppato a Linz nell'ambito di NXAI. Le fonti sono state selezionate secondo il criterio 4A (Autorevoli, Aggiornate, Autentiche, Autonome).

(*) Deep Blue aveva archivi e conoscenza scacchistica incorporata, ma non possedeva una memoria artificiale nel senso moderno del termine: non imparava sequenze, non tratteneva contesti, non costruiva una continuità interna dell’esperienza.

(**) il paper del 1997 in realtà non è “esclusivamente nato” a Lugano e bisogna comunque ricordare le fasi precedenti, comunque europee. La tesi del 1991 di Hochreiter è legata infatti al suo percorso tedesco/austriaco; IDSIA diventa centrale soprattutto nella maturazione successiva dell’architettura e nella variante con forget gate.

Ultimo aggiornamento:09/06/2026 12:07:04