Intelligenza artificiale
per affrontare le sfide globali

English version

Braccio robotico, Laboratorio VandaL

Braccio robotico, Laboratorio VandaL

Tra chi si occupa di intelligenza artificiale e reti, in molti ricordano ancora quello che successe nel 2012. Quell’anno la competizione chiamata ImageNet venne vinta in modo schiacciante da AlexNet, la rete neurale profonda messa a punto da Alex Krizhevsky, allora studente dell’Università di Toronto sotto la supervisione di Geoffrey Hinton, ultimo Nobel per la fisica, e di Ilya Sutskever, uno dei fondatori di OpenAI.

"Questa cosa cambia tutto", disse ai suoi colleghi di laboratorio al Politecnico di Losanna Barbara Caputo, oggi coordinatrice del laboratorio VandaL al Politecnico di Torino. "Non fu semplice accettare che gli approcci statistici all’apprendimento automatico di cui mi ero occupata fino a quel momento della mia carriera non avrebbero mai retto il confronto, ma il dato era incontrovertibile".

AlexNet segnò l'inizio di una rivoluzione nel campo della visione artificiale, resa possibile dalla disponibilità di hardware sufficientemente potente, le graphical processing unit (GPU), e di un grande numero di immagini libere, condivise per lo più da internauti inconsapevoli sui social media dell’epoca.

Questa tecnologia si è diffusa in molti ambiti diversi. Dall’analisi delle immagini mediche, per esempio per la diagnosi dei tumori della pelle o del seno, alle auto a guida autonoma, al riconoscimento facciale. In alcuni casi è stata rivoluzionaria, in altri il suo impatto deve ancora realizzarsi completamente.

Per imparare a riconoscere un cane basta avere a disposizione un gran numero di immagini, alcune contenenti cani, magari in tante posizioni e con tanti sfondi diversi, e altre non contenenti cani. Avere un database simile è piuttosto semplice, perché il lavoro di etichettatura può essere fatto da persone non esperte – e che quindi si possono anche pagare poco.

Non è altrettanto semplice se si parla di immagini satellitari con le quali si desidera determinare il tipo di coltura o gli effetti di un incendio. Se poi si vuole allenare una rete neurale profonda a riconoscere la scena che un robot si trova davanti, le cose si complicano ancora. Il punto di vista del robot è soggettivo, mentre le immagini disponibili online sono quasi sempre prese da un punto di vista terzo. Lo stesso vale per i droni, che osservano lo spazio circostante a diverse altezze da terra e con inclinazioni mutevoli.

Eppure le applicazioni in questi campi potrebbero giocare un ruolo fondamentale per il futuro dell’umanità. Il contrasto al cambiamento climatico richiede uno stretto monitoraggio del pianeta, e i satelliti offrono questa possibilità a patto di saper interpretare le immagini che raccolgono. Robot capaci di agire a stretto contatto con gli esseri umani e di eseguire una grande varietà di compiti, apprendendoli in tempo reale, potrebbero fornire l’assistenza necessaria a una popolazione sempre più vecchia e malata. Oltre che intervenire al posto degli umani nel caso di disastri naturali, come terremoti, alluvioni o incendi.

Allo stesso tempo, se non vogliamo che l’intelligenza artificiale aggravi alcuni dei problemi a cui potrebbe porre rimedio, deve diventare sostenibile da un punto di vista energetico.

Al Politecnico di Torino in molti lavorano a queste sfide. Tra loro Barbara Caputo con il suo gruppo di ricerca che si occupa di visione per la robotica e di reti neurali ‘frugali’, ed Enrico Magli, il cui gruppo si concentra invece sull’intelligenza artificiale per l’elaborazione delle immagini satellitari.

Ecco le loro storie.

Monitorare lo stato di salute del nostro pianeta

Da dieci anni, il programma Copernicus osserva la Terra con occhi artificiali. Lo fa attraverso le missioni satellitari Sentinel, che raccolgono dati di diversa natura sul nostro pianeta, dalla vegetazione e le foreste, all’atmosfera e gli oceani. Si tratta di dati fondamentali per mettere in campo interventi di contrasto al cambiamento climatico, valutarne gli effetti e monitorare gli impegni presi dai paesi coinvolti in questa sfida. Possono essere usati per riconoscere il tipo di uso del suolo, lo stato di salute della vegetazione, l’estensione delle cicatrici lasciate da un incendio e il tempo necessario perché si rimarginino. Anche in agricoltura Copernicus può fare la sua parte, in particolare per ottimizzare l’uso delle risorse.

Per ottenere informazioni significative è necessario elaborare i dati che i sensori a bordo dei satelliti raccolgono mentre compiono le loro orbite.

Tra questi, le immagini sono i dati più complessi da elaborare, ma allo stesso tempo i più ricchi di informazione.

Negli ultimi dieci anni, gli algoritmi di machine learning basati su reti neurali profonde sono diventati lo strumento principale utilizzato nel campo dell’elaborazione delle immagini satellitari.

Proprio di questo si occupa il professor Enrico Magli, coordinatore dell’Image Processing Lab al Politecnico di Torino. "Ho lavorato a lungo sui dati raccolti dal satellite Sentinel, in tutte le sue generazioni e ora collaboro con l’Agenzia spaziale europea (ESA) sul Sentinel di prossima generazione".

Un problema di cui Magli e i suoi collaboratori si sono occupati con successo è quello di combinare immagini a bassa risoluzione per ottenerne una versione ad alta risoluzione. La missione satellitare PROBA-V, diretta dall’Agenzia spaziale europea per Copernicus, raccoglie immagini multispettrali a frequenze ideali per il monitoraggio della vegetazione, delle foreste e dei corpi idrici interni.

"Le applicazioni nell’ambito dell’agricoltura, per esempio, hanno bisogno di una risoluzione di almeno due metri, mentre i sensori a bordo di Sentinel-2 arrivano al massimo a una decina di metri, e PROBA-V a 30 metri", spiega Magli.

Nel 2019, l’Agenzia spaziale europea ha indetto una competizione per trovare il migliore algoritmo che a partire da una serie di immagini a bassa risoluzione prese a passaggi orbitali successivi del satellite PROBA-V sulla medesima porzione di territorio, ne generasse una versione con risoluzione 3x3 volte maggiore (per ogni pixel dell’immagine a bassa risoluzione, ne dovevano esistere nove in quella ad alta risoluzione).

L’algoritmo DeepSUM, messo a punto dal gruppo di Magli, ha vinto la competizione e nel 2021 il gruppo ne ha pubblicato una versione ulteriormente migliorata, chiamata PIUNet.

"L’elemento innovativo in DeepSUM era il modo in cui allineavamo le immagini a bassa risoluzione prima di combinarle" spiega Magli. A ogni passaggio orbitale il satellite fotografa la stessa porzione di territorio, ma da un’angolazione leggermente diversa e questo introduce distorsioni. "Il miglioramento di PIUNet è stato ottenuto vincolando l’architettura della rete alla richiesta di restituire risultati che non dipendessero dall’ordine in cui venivano date in input le immagini a bassa risoluzione".

L’Image Processing Lab ha lavorato anche sull’elaborazione di immagini iperspettrali raccolte dai satelliti EnMAP e PRISMA.

Mentre i sensori multispettrali raccolgono immagini corrispondenti a una decina di lunghezze d’onda dello spettro elettromagnetico, i sensori iperspettrali ne raccolgono qualche centinaio.

"Questo permette di svolgere compiti più sofisticati, per esempio ovviare al problema della copertura nuvolosa", continua Magli. Le nuvole coprono infatti circa il 40% delle immagini a Terra e il 60% di quelle degli oceani. "Le nuvole possono facilmente essere confuse con altre cose, come ghiaccio o luce emessa da riflettori potenti. Solo avendo accesso a uno spettro in frequenza molto dettagliato, è possibile capire se si tratta effettivamente di nuvole – spiega Magli – Ogni materiale, in ragione della sua struttura chimica, lascia una firma spettrale diversa che possiamo misurare con i sensori iperspettrali".

"Per adesso, tutto il processo di elaborazione avviene a terra – dice Magli – Per la dimensione e la complessità delle reti neurali che usiamo è impensabile allenarle ed eseguirle a bordo dei satelliti".

L’obiettivo di lungo termine della collaborazione tra l’Image Processing Lab e l’ESA sulle missioni Sentinel di prossima generazione è proprio quello di sviluppare sistemi di machine learning per l'elaborazione a bordo.

Si tratta dell’ultima frontiera in questo campo di ricerca, poiché impone di lavorare con vincoli molto stringenti sulla capacità di calcolo — manca l’accesso alle GPU, le graphical processing unit indispensabili per allenare reti neurali profonde con un enorme numero di parametri — e sul consumo di energia.

immagine satellitare bassa risoluzione
immagine satellitare alta risoluzione
Immagine in bassa risoluzione ottenuta dal satellite Proba-V

Immagine in bassa risoluzione ottenuta dal satellite Proba-V
(Valsesia e Magli 2021)

 immagine scattata da Proba-V e ricostruita in alta risoluzione

Stessa immagine scattata da Proba-V e ricostruita in alta risoluzione tramite l'algoritmo DeepSUM (Valsesia e Magli 2021)

Questa è una delle sfide che Magli affronterà grazie a un finanziamento dello European Research Council (ERC), l'ente dell'Unione europea che sostiene la ricerca di frontiera. Il progetto che ha ottenuto il sostegno dell'ERC si chiama IntelliSwarm e punta a sviluppare modelli di deep learning per l'elaborazione di immagini raccolte da uno sciame di satelliti in orbita intorno alla Terra. "I modelli saranno allenati a Terra ma eseguiti in modo distribuito, ogni satellite dello sciame farà la sua parte".

Per arrivare a questo risultato Magli e i suoi collaboratori dovranno partire da zero. Per prima cosa sarà necessario costruire i dati su cui allenare i modelli. "Non esistono dataset pubblici di immagini della Terra raccolte da sciami di satelliti. ESA e NASA stanno cominciando le prime sperimentazioni solo ora", spiega. Un aereo equipaggiato con una fotocamera iperspettrale e un sensore LIDAR, che misura l'altezza degli oggetti al suolo, permetterà al gruppo di Magli di acquisire un insieme di immagini ad alta risoluzione. I ricercatori a quel punto svilupperanno degli algoritmi per simulare le immagini che uno sciame di satelliti in orbita bassa raccoglierebbe delle stesse scene viste dall'aereo, degradandone la risoluzione spaziale e spettrale. Queste immagini saranno usate per allenare i modelli di deep learning a ricostruire le immagini originarie raccolte dall'aereo e ricostruire la scena in 3D grazie ai dati raccolti dal LIDAR. "Il dataset di immagini sarà reso pubblico, a disposizione della comunità scientifica".

Una volta allenati, i modelli saranno "spacchettati" in modo da poter essere eseguiti dai singoli satelliti dello sciame usando solo le proprie immagini. Una procedura iterativa garantirà che il risultato sia sostanzialmente lo stesso di quello che si otterrebbe centralizzando il calcolo.

C'è una sfida nella sfida però. "Stiamo lavorando a un sistema di machine learning compatto, in cui i pesi delle connessioni della rete possono assumere solo tre valori discreti, invece di poter rappresentare numeri reali. Tuttavia, non avremmo alcun guadagno in termini di tempo di calcolo ed energia se eseguissimo queste reti leggere sulle schede grafiche messe a punto per le reti neurali convenzionali, dovremo quindi sviluppare hardware ad hoc", spiega Magli.

Questo è il primo passo verso un approccio che vede una parte sempre crescente del calcolo spostarsi dalle stazioni di terra a bordo dei satelliti. "Oggi trasferiamo tutte le immagini raccolte dai satelliti alle stazione di terra e lì eseguiamo i calcoli necessari a estrarre da queste le informazioni che ci interessano, ma tanto la trasmissione che il calcolo sono estremamente costosi".

L'esecuzione a bordo permetterà di trasmettere a terra solo le informazioni utili, per esempio lo stato di salute di una certa area coltivata. La visione di lungo termine è quella di spostare sul satellite anche la fase di allenamento. "Si realizzerebbe un apprendimento continuo in cui il modello è aggiornato man mano che il satellite raccoglie nuove immagini. È un po' quello che succede agli esseri umani: imparano a riconoscere certe scene ma continuano a guardare, aggiornando così la loro capacità di interpretazione della realtà".

Intelligenza artificiale per la robotica

Braccio robotico, Laboratorio VandaL

Braccio robotico, Laboratorio VandaL

Braccio robotico, Laboratorio VandaL

Magli non è il solo che al Politecnico di Torino sta affrontando il problema della dimensione e dunque del carico computazionale dei moderni algoritmi di machine learning, basati su reti neurali profonde. Queste considerazioni hanno a che fare non solo con l’usabilità di questi sistemi, ma anche con il consumo di energia e il conseguente impatto sull’ambiente.

Consumo elettrico dei centri dati pro capite per regione, Scenario di base, 2020-2030 (fonte: IEA)

I ricercatori del laboratorio VandaL, coordinato dalla professoressa Barbara Caputo, hanno sviluppato algoritmi in grado di generare l’architettura della rete neurale più efficiente dal punto di vista computazionale considerato l’hardware dove questa rete neurale dovrà essere allenata.

"Se quando progetti un algoritmo di machine learning ti poni la domanda 'ma questo su che ferro gira?', ottimizzi non solo l'algoritmo rispetto al problema che vuoi risolvere ma anche rispetto al computer su cui lo fai girare", spiega Caputo.

Questo lavoro è cominciato con il progetto RoboExNovo finanziato dallo European Research Council nel 2015, che aveva come obiettivo quello di rendere utilizzabile da un robot la conoscenza contenuta del web.

La visione per la robotica è uno degli ambiti su cui i ricercatori di VandaL sono più attivi.

"La mia formazione di partenza è nella fisica teorica dei vetri di spin, ma quasi da subito ho capito che valutare un modello solo sulla base della sua plausibilità matematica mi stava stretto – spiega Caputo – Avevo bisogno di lavorare a modelli matematici che potessero essere messi subito alla prova dei dati". Così dopo un dottorato in informatica al KTH di Stoccolma, Caputo ha indirizzato parte della sua attività di ricerca verso la robotic vision.

"È innegabile che nel campo della robotica le reti neurali profonde abbiano avuto un impatto molto meno significativo di quello che si è osservato nel campo della visione artificiale, la cosiddetta computer vision", commenta Caputo.

Ci sono molte ragioni se questo non è accaduto.

"Il web è pieno di immagini, ma sono sempre immagini raccolte con un punto di vista terzo, non quello del robot" spiega. Insieme agli altri membri del laboratorio Vandal, Caputo ha messo a punto delle strategie per colmare questo gap.

"Possiamo immaginare che qualcosa cambierà nel prossimo futuro quando verranno condivise sul web in modo massivo anche immagini e video registrati da dispositivi indossabili, come le camere GoPro o gli occhiali per la visione aumentata. Ma è difficile dirlo prima di vederlo succedere", conclude Caputo.

La ricercatrice è anche responsabile della unità ELLIS del Politecnico di Torino. ELLIS è una rete di ricercatori e ricercatrici europee che lavorano nell’ambito dell’apprendimento automatico e dei sistemi intelligenti, organizzata in 15 aree tematiche. È nata nel 2018 ispirandosi a organizzazioni come il Canadian Institute for Advance Research (CIFAR) e lo European Molecular Biology Lab (EMBL). "Il Politecnico di Torino è stata una delle primissime unità ELLIS italiane e ne siamo molto orgogliosi perché ci pone sulla mappa a livello europeo come uno dei nodi di eccellenza in Europa e ci ha permesso di reclutare giovani ricercatrici e ricercatori da tutto il mondo", afferma Caputo.

Nel campo della computer vision i ricercatori di VandaL sono attivi su più fronti.

Carlo Masone, sta lavorando con successo su algoritmi che processano immagini del territorio, in particolare quelli che svolgono il task chiamato visual place recognition su immagini prese da terra o da satellite. La domanda è: se io vedo un'immagine posso dire in quale parte del mondo è stata scattata avendo a disposizione un database di riferimento?

Visual place recognition, https://vandal.polito.it/

Visual place recognition, https://vandal.polito.it/

Saper rispondere a questa domanda può essere utile per applicazioni sia in ambito civile sia della sicurezza. Insieme al suo team, Masone è riuscito a risolvere due problemi che si pongono in questo tipo di task.

Da una parte c’è il problema di accedere ed effettuare ricerche in modo rapido in un database molto grande di immagini, che si riferiscono a luoghi di tutto il mondo, fotografati da tutti i punti di vista possibili, in tutte le possibili condizioni meteo e di luce. Quanto spazio mi serve per archiviarle e quanto posso essere veloce nell’accedere a questo archivio? Con il suo gruppo Masone ha inventato un metodo per rappresentare l’informazione in modo molto compatto e quindi efficace per accedere a questo enorme database ed effettuare confronti in modo rapido.

L’altro problema è la scalabilità degli algoritmi di geolocalizzazione: Masone ha sviluppato un algoritmo che può gestire in teoria immagini prese da qualunque luogo del mondo. Ha sviluppato il modello su dati italiani e poi ha dimostrato che questo algoritmo è scalabile, cioè è garantito che dandogli in pasto un’immagine scattata ovunque nel mondo, in un tempo limitato l’algoritmo è in grado di dire dove è stata scattata.

Tatiana Tommasi, un’altra ricercatrice del VandaL, è conosciuta a livello internazionale come una leader dell’apprendimento in condizioni estreme. Uno dei suoi lavori più famosi è l’apprendimento basato sulla risoluzione di puzzle.

Il principio è quello secondo cui posso imparare a riconoscere un cane in un’immagine dividendola in tante piccole porzioni, i pezzi di un puzzle, e poi ricostruendo l’immagine completa assemblando i pezzi. Quando risolviamo puzzle cerchiamo consistenze locali e quindi insegnando a un algoritmo a risolvere puzzle gli stiamo insegnando a trovare queste consistenze e quindi a interpretare il suo contenuto.

Questo approccio risponde a un problema molto rilevante nell’ambito del machine learning. Le performance dei sistemi di apprendimento automatico dipendono fortemente dalla qualità dei dati che usiamo per allenarli. Il riconoscimento delle immagini ha avuto successo perché si sono resi disponibili database grandi e ben curati. Ma questo lavoro è costoso e non è sempre fattibile e la ricerca di Tommasi dimostra che anche da dati estremamente grezzi e non curati si può imparare.

Un altro aspetto affascinante del lavoro di Tommasi è che è ispirato alla psicologia cognitiva. Quando insegniamo ai bambini a ordinare per dimensione crescente degli oggetti sfruttiamo spesso un attributo che non c’entra nulla con la dimensione, cioè il colore. In psicologia cognitiva questo si chiama task ausiliario. Questo stile di apprendimento è efficace perché sfrutta una delle primissime caratteristiche che i bambini sono in grado di riconoscere, i colori, mettendolo al servizio di un nuovo attributo, la taglia.

La nostra sfida è quella di avere sistemi e modelli che non siano solo adattabili ma anche sostenibili e quindi robusti, affidabili e leggeri.

- Tatiana Tommasi -

Tatiana Tommasi, ricercatrice

Tatiana Tommasi, ricercatrice