Retroscena

"Ok Googoo": una breve introduzione al riconoscimento vocale

Kevin Hofer
28.5.2018
Traduzione: tradotto automaticamente

Il riconoscimento vocale è una vecchia storia. Tuttavia, l'era degli assistenti intelligenti che ascoltano ogni nostro desiderio viene attualmente evocata. Perché il riconoscimento vocale dovrebbe rivoluzionare le nostre vite in questo momento? Uno sguardo al passato ci aiuta a capire.

Cosa direbbe Thomas Edison se lo descrivessi come uno dei fondatori del riconoscimento vocale? Probabilmente prenderebbe questa affermazione e la commercializzerebbe immediatamente. Oltre a essere un brillante inventore, Edison era anche un uomo d'affari senza scrupoli che amava strumentalizzare gli altri per i propri scopi. Tuttavia, il fonografo di Edison può essere considerato uno dei dispositivi pionieristici per il riconoscimento vocale. Permetteva di registrare e riprodurre il suono in modo meccanico, uno dei requisiti fondamentali per il riconoscimento vocale.
Ma basta con la storia del fonografo.
Ma basta con le lezioni di storia. Sei qui perché vuoi imparare qualcosa sul riconoscimento vocale. Con il linguaggio, noi esseri umani ci distinguiamo chiaramente dagli animali. Sebbene anche alcuni animali comunichino con i suoni, noi esseri umani abbiamo a disposizione il complesso sistema del linguaggio.

Di seguito, fornirò una panoramica sul funzionamento del riconoscimento vocale. Mi concentrerò sui punti più importanti e tralascerò volutamente alcuni aspetti.

Un po' di linguistica per iniziare

Il fonema o suono è la più piccola unità fonetica ottenuta dalla segmentazione. Può essere una "a", ad esempio. Il fonema, invece, è la più piccola unità di differenziazione del significato del sistema sonoro di una lingua. Mentre con un fonema abbiamo a che fare solo con il suono, il fonema ha già un significato linguistico. I fonemi sono gli elementi costitutivi di una lingua.

Vuoi un esempio? In tedesco (e anche in svizzero tedesco), la "r" viene pronunciata in modi diversi. Un nativo della Turgovia produce il fonema nella parte posteriore, un bernese in quella anteriore. Ma il significato della "r" rimane lo stesso. Il seguente video spiega tutto ciò.

Noi esseri umani diamo un significato al discorso sentendo i fonemi. Tuttavia, il riconoscimento vocale può percepire i telefoni solo acusticamente. Per comprendere i fonemi, il riconoscimento vocale richiede un dizionario fonetico. Questo va oltre il semplice udito. Ma restiamo all'udito. Si tratta di un processo complesso che coinvolge diversi problemi:

  • Rumori laterali: non sempre il quartiere è tranquillo. C'è il rumore del traffico per strada e altre persone che parlano tra loro sui mezzi pubblici. Anche l'udito deve sempre filtrare i suoni.
  • Fine e inizio delle parole: dove finisce una parola e inizia la successiva? Se qualcuno parla molto velocemente, ad esempio, non è possibile distinguere chiaramente le parole.
  • Ogni suono è unico. Non pronunciamo mai due volte lo stesso suono. Le differenze sono ancora maggiori con le altre persone. L'origine, l'età, il sesso, ecc. influenzano il suono che produciamo.
  • Gli omofoni, cioè le parole che si pronunciano allo stesso modo ma che hanno significati diversi, devono essere differenziati (ad esempio, banca/bank).
  • Le frasi/espressioni possono essere completamente fraintese. Si tratta ad esempio di interrogazioni canore come "Anneliese Braun" o "Agathe Bauer". Anche se questi sono esempi di lingue straniere, anche in tedesco (o in svizzero tedesco) sentiamo male.

Inoltre, ci sono la sintassi e la semantica che il nostro cervello utilizza per decodificare le parole quando le ascoltiamo. L'udito è quindi un processo molto complesso. Noi esseri umani abbiamo l'impressione che l'udito e la comprensione siano semplici. Ma non è così semplice.

Come fanno i computer a capire il parlato?

In questa sede analizzerò quattro tipi di riconoscimento del parlato:

  • Ricerca semplice basata su pattern (semplice corrispondenza di pattern)
  • Analisi dei modelli e delle caratteristiche
  • Modellazione del linguaggio e analisi statistica
  • Rete neurale artificiale (Artificial neural network)

Questi argomenti si basano l'uno sull'altro. Qui di seguito illustrerò brevemente i singoli punti. Tuttavia, questo dovrebbe essere sufficiente per darti una breve panoramica sul funzionamento del riconoscimento vocale.

Semplice ricerca basata su un modello

"Per favore, pronuncia il tuo numero di polizza dopo il bip" Bip. "Sette, cinque, tre, nove..." Chi non l'ha mai sentito prima? Il robot del call center vuole da noi le informazioni necessarie prima di poter parlare con un umano. Questo è un esempio di una semplice ricerca basata su un modello.

Anche i telefoni cellulari un po' più vecchi offrivano semplici istruzioni vocali. «Ad esempio, la composizione vocale era popolare con il Nokia».
Anche i telefoni cellulari un po' più vecchi offrivano semplici istruzioni vocali. «Ad esempio, la composizione vocale era popolare con il Nokia».
Fonte: Screenshot Youtube

Con la ricerca semplice basata su un modello, il numero di opzioni di selezione è molto limitato. Il riconoscimento vocale non ha quindi bisogno di analizzare la sintassi o di comprendere il significato della frase. Non si tratta di riconoscimento vocale in senso stretto. Il sistema deve essere in grado di distinguere tra un numero limitato di modelli di suono per poter funzionare.

Riconoscimento di modelli e caratteristiche

Il vocabolario per le ricerche semplici basate sui pattern è molto limitato. I primi sistemi di riconoscimento vocale si limitavano spesso a questo tipo di ricerca. Erano sviluppati per un settore specifico (nell'esempio precedente, un call center) e funzionavano relativamente bene nel loro campo limitato. Il riconoscimento vocale moderno, invece, è in grado di comprendere migliaia e migliaia di parole. Come può funzionare?

Una possibilità potrebbe essere quella di chiedere a qualcuno di sedersi con un dizionario e di leggere ogni parola in esso contenuta alcune volte. In questo modo, si potrebbe creare un database a cui il sistema di riconoscimento vocale potrebbe accedere. Sembra complicato? Lo è, ed è anche estremamente inefficiente.

Per quale motivo un sistema di riconoscimento vocale dovrebbe essere in grado di leggere ogni parola?

Perché un sistema dovrebbe memorizzare tutte le parole di un dizionario se queste parole sono tutte composte dagli stessi foni? Il software potrebbe semplicemente imparare i fonemi e mettere insieme le parole a partire da questi.

Il riconoscimento linguistico basato su questo sistema funziona come segue: Il sistema di riconoscimento ascolta un enunciato tramite un microfono. In una prima fase, i dati vengono digitalizzati mediante un convertitore A/D. I dati vengono poi convertiti in uno spettrogramma e infine suddivisi in fotogrammi acustici sovrapposti. Questi ultimi durano 1/25 o 1/50 di secondo. Vengono analizzati ed esaminati per individuare i componenti del parlato. L'intero discorso può essere suddiviso in parole e gli elementi chiave possono essere confrontati con un dizionario fonetico. In questo modo è possibile determinare cosa è stato probabilmente detto. Probabile è anche la parola chiave del riconoscimento vocale: nessuno, a parte l'oratore, può sapere esattamente cosa intendeva dire.
In teoria, è possibile determinare ciò che è stato detto.
In teoria, è possibile comprendere ogni pronuncia filtrando i singoli fonemi. Invece di imparare migliaia di parole, il riconoscimento vocale deve conoscere solo una quarantina di fonemi (in tedesco). Naturalmente, è necessario un dizionario fonetico per riconoscere le singole parole.

La maggior parte dei sistemi di riconoscimento vocale migliora nel tempo in base al feedback degli utenti. Le prime versioni del software Dragon Naturally Speaking sono un esempio di questo tipo di riconoscimento vocale. Può essere utilizzato per trascrivere automaticamente i testi.

Modelli linguistici e analisi statistica

Riconoscere il parlato è ancora più complesso che identificare i fonemi e abbinarli ai dati memorizzati. Perché? Se l'hai già dimenticato, scorri indietro e leggi i quattro punti sotto il titolo "Ascoltare e analizzare il parlato".

La variabilità del parlato, la pronuncia, gli omofoni e le incomprensioni causano molti errori nei sistemi di riconoscimento vocale che si basano esclusivamente sul riconoscimento di modelli e caratteristiche. È qui che i modelli linguistici possono essere d'aiuto.

Il linguaggio non è semplicemente una pronuncia omofona.

Il linguaggio non consiste semplicemente in suoni messi insieme a caso. Le parole pronunciate fanno riferimento alle parole che le precedono o le seguono. Il linguaggio dipende dal contesto. Ad esempio, un pronome personale è seguito da un verbo: "io sono", "tu hai" o "noi vogliamo". E gli aggettivi vengono prima dei nomi.

Se ora il sistema di riconoscimento vocale cerca di comprendere il linguaggio parlato e riconosce la frase di esempio "Hai un'auto *******.", il sistema di riconoscimento può supporre che la parola mancante sia un aggettivo. Se almeno un fonema della parola è stato riconosciuto, il riconoscimento vocale ha un altro indizio.

Più o meno tutti i moderni sistemi di riconoscimento vocale utilizzano modelli linguistici e analisi statistiche almeno in una certa misura. Questi includono le probabilità di quali fonemi seguono altri o la probabilità di quali parole seguono altre. Sulla base di questi dati, viene creato un cosiddetto "modello di Markov nascosto".

Rete neurale artificiale

I modelli di Markov nascosti sono stati utilizzati nel riconoscimento vocale fin dagli anni Settanta. Funzionano in modo molto affidabile. Tuttavia, il nostro cervello non utilizza modelli di Markov nascosti per il riconoscimento vocale. Funziona attraverso densi strati di cellule cerebrali che elaborano le informazioni che arrivano attraverso le coclee (la coclea).
Negli anni '80, i modelli di Markov nascosti sono stati utilizzati per il riconoscimento del parlato.
Negli anni '80, gli scienziati hanno quindi sviluppato modelli informatici che imitano il modo in cui il nostro cervello riconosce i modelli. Tuttavia, a causa dell'efficacia dei Modelli di Markov Nascosti, questo approccio è rimasto per qualche tempo un effetto collaterale. Negli ultimi anni, tuttavia, gli scienziati hanno iniziato a combinare le reti neurali artificiali con il Modello di Markov Nascosto. Questo può aumentare ulteriormente la probabilità di una migliore comprensione del riconoscimento vocale.

I modelli di Markov nascosti e le reti neurali artificiali sono oggi utilizzati con la parola d'ordine "deep learning". Scriverò un articolo su questo argomento nel prossimo futuro. Per ora mi limiterò alle nozioni di base.

L'era degli assistenti intelligenti?

Gli assistenti digitali come Siri, Cortana ecc. oggi non si limitano a capire il parlato. Grazie all'elaborazione del linguaggio naturale, comprendono anche il significato di ciò che viene detto. Questo significa che ciò che viene detto ha anche delle conseguenze reali. Ad esempio, se chiedo informazioni sul meteo, ricevo effettivamente informazioni in merito. Ma c'è di più, come dimostra il video qui sotto.

Questo significa che in futuro parleremo solo con i computer invece di impartire loro comandi tramite tastiera? Come hai letto sopra, i modelli di Markov nascosti sono uno standard nel riconoscimento vocale fin dagli anni '70. Un software di dettatura ragionevolmente affidabile esiste già dagli anni '90. Nonostante ciò, personalmente vedo pochissime persone che parlano con il proprio computer o smartphone.

Perché? Noi esseri umani non abbiamo involontariamente ideato diversi modi di comunicare. Il linguaggio orale è diretto e schietto. Se invece vogliamo esprimere pensieri più profondi, la scrittura è la strada da percorrere. Ma questo non è l'unico motivo per cui la scrittura è un processo più intimo rispetto alla parola. Quando scriviamo, i nostri pensieri sono inizialmente solo per noi. Quando parliamo, tutti possono ascoltarci.

Anche se il riconoscimento vocale è ormai affidabile quasi quanto gli esseri umani (un tasso di errore di parola di circa il cinque percento), continueremo a comunicare per iscritto con i computer, almeno in parte. Semplicemente perché parlare e scrivere sono due cose completamente diverse e più o meno appropriate a seconda della situazione. <p

A 14 persone piace questo articolo


User Avatar
User Avatar

Tecnologia e società mi affascinano. Combinarle entrambe e osservarle da punti di vista differenti sono la mia passione.


Informatica
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Smartphone
Segui gli argomenti e ricevi gli aggiornamenti settimanali relativi ai tuoi interessi.

Potrebbero interessarti anche questi articoli

  • Retroscena

    La mia piccola storia delle telecomunicazioni

    di Thomas Meyer

  • Retroscena

    Perché giochiamo d'azzardo? La psicologia dietro i videogiochi

    di PC Games

  • Retroscena

    «La modalità per daltonici dei videogiochi fa proprio schifo»

    di Martin Jud

5 commenti

Avatar
later