banner

Blog

Oct 31, 2023

SpectFormer di Microsoft e Bath U migliora significativamente i trasformatori visivi tramite frequenza e attenzione

Nel nuovo articolo SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer, un gruppo di ricerca di Microsoft e dell'Università di Bath propone Spectformer, una nuova architettura di trasformatore che combina livelli di attenzione spettrali e multi-testa per catturare meglio le rappresentazioni delle caratteristiche appropriate. e migliorare le prestazioni.

Facendo seguito alle prestazioni epocali dei modelli linguistici di grandi dimensioni basati sull'architettura dei trasformatori, i trasformatori di visione (ViT) sono emersi come un potente approccio all'elaborazione delle immagini. Come i loro predecessori basati su testo, i ViT inizialmente si affidavano a livelli di autoattenzione multi-testa per catturare caratteristiche dalle immagini di input, mentre approcci più recenti hanno impiegato livelli spettrali per rappresentare patch di immagini nel dominio della frequenza. I ViT potrebbero trarre vantaggio da un’architettura che incorpori entrambi i metodi?

Nel nuovo articolo SpectFormer: Frequency and Attention Is What You Need in a Vision Transformer, un gruppo di ricerca di Microsoft e dell'Università di Bath propone SpectFormer, una nuova architettura di trasformatore che combina livelli di attenzione spettrali e multi-testa per catturare meglio le rappresentazioni delle caratteristiche appropriate. e migliorare le prestazioni ViT.

Il team riassume i loro principali contributi come segue:

Il team esplora innanzitutto come si comportano le diverse combinazioni di strati di attenzione spettrali e a più teste rispetto ai modelli esclusivamente di attenzione o spettrali, concludendo che dotare lo SpectFormer proposto con strati spettrali iniziali implementati con trasformata di Fourier seguiti da strati di attenzione a più teste ottiene i risultati più promettenti .

L'architettura SpectFormer ha quattro componenti principali: uno strato di incorporamento della patch, uno strato di incorporamento posizionale, un blocco trasformatore comprendente una serie di strati spettrali seguiti da strati di attenzione e una testa di classificazione. La pipeline SpectFormer trasforma innanzitutto i token di immagine nel dominio di Fourier (nello spazio spettrale), dove viene eseguita un'analisi basata sulla frequenza delle informazioni sull'immagine e vengono catturate le caratteristiche rilevanti; quindi applica tecniche di gating tramite parametri di peso apprendibili; e infine esegue una trasformata di Fourier inversa per restituire il segnale dallo spazio spettrale allo spazio fisico.

Nel loro studio empirico, il team ha confrontato SpectFormer con DeIT basato sull’autoattenzione multi-testa, l’architettura parallela LiT e GFNet ViTs basato su spettri su vari compiti di rilevamento di oggetti e classificazione di immagini. SpectFormer ha migliorato tutte le linee di base negli esperimenti, ottenendo una precisione top-1 all'avanguardia (85,7%) sul set di dati ImageNet-1K.

Codice e informazioni aggiuntive sono disponibili sulla pagina web del progetto. Il documento Spectformer: Frequency and Attention Is What You Need in a Vision Transformer è disponibile su arXiv.

Autore: Ecate Lui |Editore: Michael Sarazen

Sappiamo che non vuoi perderti nessuna notizia o scoperta decisiva della ricerca.Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'IA.

Intelligenza artificiale | Tecnologia e industria | Informazioni e analisi

Post fantasticoOttimo articolo! L'architettura SpectFormer proposta sembra molto promettente. Sono curioso di sapere come si confronta con altri modelli all'avanguardia come Swin Transformer e ViT-L in termini di prestazioni ed efficienza computazionale. Pensi che SpectFormer abbia il potenziale per diventare il nuovo punto di riferimento per i trasformatori di visione? Johnhttps://www.airiches.online/

Mi piace davvero quanto sia semplice per me leggere. Vorrei sapere come ricevere una notifica ogni volta che viene creato un nuovo post.

L'indirizzo email non verrà pubblicato. I campi richiesti sono contrassegnati *

Commento *

Nome

E-mail

Sito web

Avvisami dei commenti successivi tramite e-mail.

Notificami nuovi articoli tramite email.

D

Autore Editor Iscriviti alla nostra popolare newsletter Synced Global AI Weekly per ricevere aggiornamenti settimanali sull'intelligenza artificiale.
CONDIVIDERE