L'esplorazione visiva della Maryland U e della New York University rivela ciò che imparano i trasformatori di visione
Nel nuovo articolo Cosa imparano i trasformatori di visione? A Visual Exploration, un gruppo di ricerca dell’Università del Maryland e della New York University utilizza visualizzazioni di caratteristiche su larga scala da un’ampia gamma di trasformatori di visione per ottenere informazioni su ciò che apprendono dalle immagini e su come differiscono dalle reti neurali convoluzionali.
Dalla loro introduzione nel 2020, i trasformatori di visione (ViT) sono diventati un'architettura di visione artificiale leader, raggiungendo prestazioni all'avanguardia in attività che vanno dal rilevamento di oggetti e riconoscimento di immagini alla segmentazione semantica. Ma comprendere i meccanismi interni che contribuiscono al successo dei ViT – cosa e come imparano effettivamente dalle immagini – rimane una sfida.
Nel nuovo articolo Cosa imparano i trasformatori di visione? A Visual Exploration, un gruppo di ricerca dell'Università del Maryland e della New York University utilizza visualizzazioni di caratteristiche su larga scala da un'ampia gamma di ViT per ottenere informazioni su ciò che apprendono dalle immagini e su come differiscono dalle reti neurali convoluzionali (CNN).
Il team riassume i loro principali contributi come segue:
Come con i metodi di visualizzazione convenzionali, il team utilizza passaggi graduali per massimizzare le attivazioni delle funzionalità dal rumore casuale. Per migliorare la qualità dell'immagine, penalizzano la variazione totale (Mahendran & Vedaldi, 2015) e adottano tecniche di aumento del Jitter (Yin et al., 2020), aumento del ColorShift e tecniche di aumento dell'insieme (Ghiasi et al., 2021).
Per consentire una comprensione più approfondita del contenuto di una determinata funzionalità visualizzata, il team abbina ciascuna visualizzazione con immagini del set di convalida/formazione ImageNet che hanno l'effetto di attivazione più forte per quanto riguarda la funzionalità pertinente. Tracciano il modello di attivazione della funzionalità facendo passare le immagini più attivanti attraverso la rete ViT e visualizzando il modello risultante di attivazioni della funzionalità.
Il team tenta innanzitutto di visualizzare le caratteristiche dello strato di attenzione a più teste di ViT, comprese chiavi, query e valori, massimizzando i neuroni attivati. Successivamente studiano la conservazione delle informazioni spaziali a livello di patch dalle visualizzazioni dei livelli di attivazione delle caratteristiche a livello di patch, scoprendo, sorprendentemente, che sebbene ogni patch possa influenzare la rappresentazione di ogni altra patch, le rappresentazioni rimangono locali. Ciò indica che i ViT apprendono e preservano le informazioni spaziali da zero.
Il team scopre inoltre che questa conservazione delle informazioni spaziali viene abbandonata nell'ultimo blocco di attenzione della rete, che agisce in modo simile al pooling medio. Ne deducono che la rete globalizza le informazioni nell'ultimo livello per garantire che il token di classe (CLS) abbia accesso all'intera immagine, concludendo che il token CLS svolge un ruolo relativamente minore nella rete complessiva e non viene utilizzato per la globalizzazione fino a quest'ultimo livello .
Nel loro studio empirico, i ricercatori scoprono che le proiezioni interne ad alta dimensione degli strati feed-forward di ViT sono adatte per produrre immagini interpretabili, mentre le caratteristiche chiave, interrogative e di valore dell'autoattenzione non lo sono. Nei confronti tra CNN e ViT, il team osserva che i ViT possono utilizzare meglio le informazioni di base e fare previsioni di gran lunga superiori. È stato inoltre dimostrato che i ViT formati con la supervisione del modello linguistico ottengono migliori caratteristiche semantiche e concettuali.
Nel complesso, questo lavoro utilizza un approccio di visualizzazione efficace e interpretabile per fornire preziose informazioni su come funzionano i ViT e cosa apprendono.
Il codice è disponibile sul GitHub del progetto. Il documento Cosa imparano i trasformatori di visione? Un'esplorazione visiva è su arXiv.
Autore: Ecate Lui |Editore: Michael Sarazen
Sappiamo che non vuoi perderti nessuna notizia o scoperta decisiva della ricerca.Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'IA.
Intelligenza artificiale | Tecnologia e industria | Informazioni e analisi
Pingback: L'esplorazione visiva della Maryland U e della New York University rivela cosa imparano i trasformatori di visione | Sincronizzato -