banner

Notizia

Oct 16, 2023

I trasformatori di visione hanno preso d'assalto il campo della visione artificiale, ma cosa imparano?

I trasformatori di visione (ViT) sono un tipo di architettura di rete neurale che ha raggiunto un'enorme popolarità per attività di visione come la classificazione delle immagini, la segmentazione semantica e il rilevamento di oggetti. La differenza principale tra la visione e i trasformatori originali era la sostituzione dei token discreti di testo con valori di pixel continui estratti da patch di immagini. ViTs estrae le caratteristiche dall'immagine occupandosi di diverse regioni di essa e combinandole per fare una previsione. Tuttavia, nonostante il recente utilizzo diffuso, si sa poco sui pregiudizi o sulle caratteristiche induttive che i ViT tendono ad apprendere. Sebbene le visualizzazioni delle caratteristiche e le ricostruzioni delle immagini abbiano avuto successo nella comprensione del funzionamento delle reti neurali convoluzionali (CNN), questi metodi non hanno avuto altrettanto successo nella comprensione delle ViT, che sono difficili da visualizzare.

L'ultimo lavoro di un gruppo di ricercatori dell'Università del Maryland-College Park e della New York University amplia la letteratura sulle ViT con uno studio approfondito sul loro comportamento e sui meccanismi di elaborazione interna. Gli autori hanno creato un quadro di visualizzazione per sintetizzare immagini che attivano al massimo i neuroni nel modello ViT. In particolare, il metodo prevedeva l'adozione di gradini di gradiente per massimizzare le attivazioni delle funzionalità partendo dal rumore casuale e applicando varie tecniche di regolarizzazione, come la penalizzazione della variazione totale e l'utilizzo dell'insieme di aumento, per migliorare la qualità delle immagini generate.

L'analisi ha rilevato che i token patch nei ViT preservano le informazioni spaziali su tutti i livelli tranne l'ultimo blocco di attenzione, che apprende un'operazione di miscelazione dei token simile all'operazione di pooling media ampiamente utilizzata nelle CNN. Gli autori hanno osservato che le rappresentazioni rimangono locali, anche per i singoli canali negli strati profondi della rete.

A tal fine, il token CLS sembra svolgere un ruolo relativamente minore in tutta la rete e non viene utilizzato per la globalizzazione fino all’ultimo livello. Gli autori hanno dimostrato questa ipotesi eseguendo l'inferenza sulle immagini senza utilizzare il token CLS nei livelli 1-11 e quindi inserendo un valore per il token CLS al livello 12. Il ViT risultante potrebbe comunque classificare con successo il 78,61% del set di validazione ImageNet invece del originale 84,20%.

Pertanto, sia le CNN che i ViT mostrano una progressiva specializzazione delle caratteristiche, in cui i primi strati riconoscono le caratteristiche di base dell'immagine come colore e bordi, mentre gli strati più profondi riconoscono strutture più complesse. Tuttavia, un'importante differenza riscontrata dagli autori riguarda la dipendenza di ViT e CNN dalle caratteristiche delle immagini di sfondo e di primo piano. Lo studio ha osservato che i ViT sono significativamente migliori delle CNN nell'utilizzare le informazioni di sfondo in un'immagine per identificare la classe corretta e soffrono meno per la rimozione dello sfondo. Inoltre, le previsioni ViT sono più resistenti alla rimozione delle informazioni sulle texture ad alta frequenza rispetto ai modelli ResNet (risultati visibili nella Tabella 2 del documento).

Infine, lo studio analizza anche brevemente le rappresentazioni apprese dai modelli ViT addestrati nel framework Contrastive Language Image Pretraining (CLIP) che collega immagini e testo. È interessante notare che hanno scoperto che i ViT addestrati tramite CLIP producono caratteristiche negli strati più profondi attivati ​​da oggetti in categorie concettuali chiaramente distinguibili, a differenza dei ViT addestrati come classificatori. Ciò è ragionevole ma sorprendente perché il testo disponibile su Internet fornisce obiettivi per concetti astratti e semantici come "morbilità" (gli esempi sono visibili nella Figura 11).

Dai un'occhiata aCartaEGithub. Tutto il merito di questa ricerca va ai ricercatori di questo progetto. Inoltre, non dimenticare di iscrivertiil nostro subReddit da 13k+ ML,Canale Discordia, ENewsletter via e-mail, dove condividiamo le ultime notizie sulla ricerca sull'intelligenza artificiale, interessanti progetti sull'intelligenza artificiale e altro ancora.

Lorenzo Brigato è un ricercatore post-dottorato presso il centro ARTORG, un istituto di ricerca affiliato all'Università di Berna, ed è attualmente coinvolto nell'applicazione dell'intelligenza artificiale alla salute e alla nutrizione. Ha conseguito un dottorato di ricerca. Laurea in Informatica presso l'Università La Sapienza di Roma. Il suo dottorato di ricerca tesi incentrata sui problemi di classificazione delle immagini con distribuzioni di dati carenti di campioni ed etichette.

CONDIVIDERE