Computer con serbatoio fisico Hopf per il riconoscimento del suono riconfigurabile
Rapporti scientifici volume 13, numero articolo: 8719 (2023) Citare questo articolo
271 accessi
3 Altmetrico
Dettagli sulle metriche
L'oscillatore di Hopf è un oscillatore non lineare che presenta un movimento a ciclo limite. Questo computer serbatoio utilizza la natura vibratoria dell'oscillatore, che lo rende un candidato ideale per attività di riconoscimento del suono riconfigurabili. In questo articolo vengono sistematicamente dimostrate le capacità del computer del serbatoio Hopf di eseguire il riconoscimento del suono. Questo lavoro mostra che il computer del serbatoio Hopf può offrire una precisione di riconoscimento del suono superiore rispetto agli approcci legacy (ad esempio, un approccio con spettro di Mel + apprendimento automatico). Ancora più importante, il computer del serbatoio Hopf che funziona come sistema di riconoscimento del suono non richiede la preelaborazione audio e ha una configurazione molto semplice pur offrendo un elevato grado di riconfigurabilità. Queste funzionalità aprono la strada all'applicazione del calcolo del serbatoio fisico per il riconoscimento del suono nei dispositivi edge a bassa potenza.
Esistono metodi onnipresenti per la classificazione dei segnali audio, in particolare per il riconoscimento vocale1,2. Tuttavia, il machine learning presenta diversi inconvenienti che ne ostacolano un’ampia diffusione nell’Internet delle cose (IoT)3. Innanzitutto, l’apprendimento automatico, in particolare le reti neurali profonde (DNN), si affidano all’infrastruttura cloud per condurre calcoli massicci sia per l’addestramento del modello che per l’inferenza. I modelli di deep learning all'avanguardia (SOTA), come GPT-3, possono avere oltre 175 miliardi di parametri e requisiti di formazione di 3,14 \(\times\) \(10^{23}\) FLOPS (operazioni mobili al secondo)4,5. L'addestramento del modello di trascrizione vocale SOTA, Whisper, ha utilizzato una libreria di parole che conteneva tante parole quante sarebbero state pronunciate ininterrottamente da una persona per 77 anni6. Nessuno di questi requisiti tecnici menzionati potrebbe essere soddisfatto da dispositivi edge per l’IoT; pertanto, l'infrastruttura cloud è una necessità per le attività DNN. In secondo luogo, la dipendenza dal cloud computing per l’apprendimento automatico comporta grandi rischi per la sicurezza e la privacy. Oltre il 60% delle precedenti violazioni della sicurezza si sono verificate durante la comunicazione di dati grezzi tra il cloud e l'edge per il machine learning7. Inoltre, ogni violazione comporta una perdita media di 4,24 milioni di dollari, cifra in continua crescita8. La preoccupazione per la privacy provoca sfiducia tra gli utenti di dispositivi intelligenti e spinge all’abbandono dei dispositivi intelligenti9,10. In terzo luogo, l’impatto ambientale dell’implementazione della DNN attraverso un’infrastruttura cloud è spesso trascurato ma non può essere trascurato. L'addestramento di un modello di trasformatore con 213 milioni di parametri genererà emissioni di anidride carbonica pari a quattro volte quelle di un veicolo di un produttore statunitense nel corso della sua intera vita11. Pertanto, la prossima generazione di dispositivi IoT intelligenti dovrà possedere una potenza computazionale sufficiente per gestire l’apprendimento automatico o anche il deep learning all’edge.
Tra gli sforzi volti a portare l’apprendimento automatico sui dispositivi edge, il calcolo dei serbatoi, in particolare il calcolo dei serbatoi fisici, ha generato i primi successi negli ultimi due decenni. Partendo dai concetti di macchine a stati liquidi e reti di stati di eco, i ricercatori hanno dimostrato che le increspature indotte dal suono sulla superficie di un secchio d'acqua potrebbero essere utilizzate per effettuare il riconoscimento del segnale audio12. In poche parole, il calcolo dei serbatoi sfrutta la non linearità intrinseca di un sistema fisico per replicare il processo di connessioni nodali in una rete neurale per estrarre caratteristiche dai segnali di serie temporali per la percezione della macchina13,14. Il Reservoir Computing conduce direttamente i calcoli in modo analogico utilizzando il sistema fisico, il che elimina in gran parte la necessità di archiviazione separata dei dati, organizzazione e percezione dell’apprendimento automatico. In particolare, il calcolo del serbatoio è naturalmente adatto per attività di elaborazione audio, che sono un sottoinsieme di segnali di serie temporali.
I ricercatori hanno esplorato molti sistemi fisici per funzionare come computer serbatoio per l'elaborazione del segnale temporale. Questi sistemi includono il gate array programmabile sul campo (FPGA)15, reazioni chimiche16, memristor17, giunzioni tunnel superparamagnetiche18, spintronica19, attenuazione della lunghezza d'onda dei laser in mezzi speciali20, MEMS (sistemi microelettromeccanici)21 e altri13,22. Sebbene questi studi abbiano dimostrato che il calcolo del serbatoio potrebbe gestire l’elaborazione del segnale audio, il sistema fisico per l’elaborazione è solitamente molto ingombrante20 e tutti richiedono la preelaborazione delle clip audio originali utilizzando metodi come lo spettro Mel, che annulla in gran parte i vantaggi derivanti dalla riduzione del segnale audio. requisiti computazionali dell'apprendimento automatico tramite il Reservoir Computing. Ancora più importante, per aumentare la potenza computazionale, le tecniche convenzionali di calcolo del serbatoio utilizzano un feedback ritardato ottenuto mediante una conversione da digitale ad analogico23, e il feedback ritardato ostacolerà la velocità di elaborazione del calcolo del serbatoio, aumentando drasticamente il consumo di energia per il calcolo. . Suggeriamo che le prestazioni tutt’altro che soddisfacenti del calcolo dei giacimenti fisici siano in gran parte causate dall’insufficiente potenza computazionale dei sistemi di calcolo scelti nei lavori precedenti.