Computer con serbatoio fisico Hopf per il riconoscimento del suono riconfigurabile

Rapporti scientifici volume 13, numero articolo: 8719 (2023) Citare questo articolo

271 accessi

3 Altmetrico

Dettagli sulle metriche

L'oscillatore di Hopf è un oscillatore non lineare che presenta un movimento a ciclo limite. Questo computer serbatoio utilizza la natura vibratoria dell'oscillatore, che lo rende un candidato ideale per attività di riconoscimento del suono riconfigurabili. In questo articolo vengono sistematicamente dimostrate le capacità del computer del serbatoio Hopf di eseguire il riconoscimento del suono. Questo lavoro mostra che il computer del serbatoio Hopf può offrire una precisione di riconoscimento del suono superiore rispetto agli approcci legacy (ad esempio, un approccio con spettro di Mel + apprendimento automatico). Ancora più importante, il computer del serbatoio Hopf che funziona come sistema di riconoscimento del suono non richiede la preelaborazione audio e ha una configurazione molto semplice pur offrendo un elevato grado di riconfigurabilità. Queste funzionalità aprono la strada all'applicazione del calcolo del serbatoio fisico per il riconoscimento del suono nei dispositivi edge a bassa potenza.

Esistono metodi onnipresenti per la classificazione dei segnali audio, in particolare per il riconoscimento vocale1,2. Tuttavia, il machine learning presenta diversi inconvenienti che ne ostacolano un’ampia diffusione nell’Internet delle cose (IoT)3. Innanzitutto, l’apprendimento automatico, in particolare le reti neurali profonde (DNN), si affidano all’infrastruttura cloud per condurre calcoli massicci sia per l’addestramento del modello che per l’inferenza. I modelli di deep learning all'avanguardia (SOTA), come GPT-3, possono avere oltre 175 miliardi di parametri e requisiti di formazione di 3,14 \(\times\) \(10^{23}\) FLOPS (operazioni mobili al secondo)4,5. L'addestramento del modello di trascrizione vocale SOTA, Whisper, ha utilizzato una libreria di parole che conteneva tante parole quante sarebbero state pronunciate ininterrottamente da una persona per 77 anni6. Nessuno di questi requisiti tecnici menzionati potrebbe essere soddisfatto da dispositivi edge per l’IoT; pertanto, l'infrastruttura cloud è una necessità per le attività DNN. In secondo luogo, la dipendenza dal cloud computing per l’apprendimento automatico comporta grandi rischi per la sicurezza e la privacy. Oltre il 60% delle precedenti violazioni della sicurezza si sono verificate durante la comunicazione di dati grezzi tra il cloud e l'edge per il machine learning7. Inoltre, ogni violazione comporta una perdita media di 4,24 milioni di dollari, cifra in continua crescita8. La preoccupazione per la privacy provoca sfiducia tra gli utenti di dispositivi intelligenti e spinge all’abbandono dei dispositivi intelligenti9,10. In terzo luogo, l’impatto ambientale dell’implementazione della DNN attraverso un’infrastruttura cloud è spesso trascurato ma non può essere trascurato. L'addestramento di un modello di trasformatore con 213 milioni di parametri genererà emissioni di anidride carbonica pari a quattro volte quelle di un veicolo di un produttore statunitense nel corso della sua intera vita11. Pertanto, la prossima generazione di dispositivi IoT intelligenti dovrà possedere una potenza computazionale sufficiente per gestire l’apprendimento automatico o anche il deep learning all’edge.

Tra gli sforzi volti a portare l’apprendimento automatico sui dispositivi edge, il calcolo dei serbatoi, in particolare il calcolo dei serbatoi fisici, ha generato i primi successi negli ultimi due decenni. Partendo dai concetti di macchine a stati liquidi e reti di stati di eco, i ricercatori hanno dimostrato che le increspature indotte dal suono sulla superficie di un secchio d'acqua potrebbero essere utilizzate per effettuare il riconoscimento del segnale audio12. In poche parole, il calcolo dei serbatoi sfrutta la non linearità intrinseca di un sistema fisico per replicare il processo di connessioni nodali in una rete neurale per estrarre caratteristiche dai segnali di serie temporali per la percezione della macchina13,14. Il Reservoir Computing conduce direttamente i calcoli in modo analogico utilizzando il sistema fisico, il che elimina in gran parte la necessità di archiviazione separata dei dati, organizzazione e percezione dell’apprendimento automatico. In particolare, il calcolo del serbatoio è naturalmente adatto per attività di elaborazione audio, che sono un sottoinsieme di segnali di serie temporali.

I ricercatori hanno esplorato molti sistemi fisici per funzionare come computer serbatoio per l'elaborazione del segnale temporale. Questi sistemi includono il gate array programmabile sul campo (FPGA)15, reazioni chimiche16, memristor17, giunzioni tunnel superparamagnetiche18, spintronica19, attenuazione della lunghezza d'onda dei laser in mezzi speciali20, MEMS (sistemi microelettromeccanici)21 e altri13,22. Sebbene questi studi abbiano dimostrato che il calcolo del serbatoio potrebbe gestire l’elaborazione del segnale audio, il sistema fisico per l’elaborazione è solitamente molto ingombrante20 e tutti richiedono la preelaborazione delle clip audio originali utilizzando metodi come lo spettro Mel, che annulla in gran parte i vantaggi derivanti dalla riduzione del segnale audio. requisiti computazionali dell'apprendimento automatico tramite il Reservoir Computing. Ancora più importante, per aumentare la potenza computazionale, le tecniche convenzionali di calcolo del serbatoio utilizzano un feedback ritardato ottenuto mediante una conversione da digitale ad analogico23, e il feedback ritardato ostacolerà la velocità di elaborazione del calcolo del serbatoio, aumentando drasticamente il consumo di energia per il calcolo. . Suggeriamo che le prestazioni tutt’altro che soddisfacenti del calcolo dei giacimenti fisici siano in gran parte causate dall’insufficiente potenza computazionale dei sistemi di calcolo scelti nei lavori precedenti.

94% of the FLOPS (floating operations per second) for high sampling rate readout and Mel spectrum computation and \(\sim {90\%}\) of the audio pieces for training./p> 99% accuracy, with the confusion matrix depicted in the right portion of Fig. 7. Note that the number of parameters trained for this experiment is about 35,000, which accounts for about 300 KB dynamic memory for 8-bit input with a batch size of 531,32, demonstrating the feasibility of running the training of the machine learning readout on low-level edge devices consuming Li-Po battery level of power./p> 99% accuracy using the exact readout machine learning algorithm by only retraining the MLP. This implies that the Hopf reservoir computer will enable inference and reconfiguration on the edge for the sound recognition system. Additionally, compared to other reservoir computing systems (e.g.,15,16,17,22), the spoken digit dataset yields superior performance without the need of using complex preprocessing, multiple physical devices, or mask functions; in addition, we have also conducted our benchmarking experiments on far more realistic datasets (i.e., the 10-class urban sound recognition dataset and the 4-class wake words dataset). We demonstrate boosted performance of audio signal processing by changing the activation signal strength of the Hopf oscillator, which implies that there are more degrees of freedom for reconfiguring physical reservoir computers as compared to other reservoir implementations./p>

Notizia

Computer con serbatoio fisico Hopf per il riconoscimento del suono riconfigurabile