Che cosa è sintesi vocale?

Che cosa è sintesi vocale?

Sintesi vocale, l'atto di produrre artificialmente la voce umana, ha una miriade di usi nel mondo oggi. Questi sistemi possono neanche parlare con qualcuno, come in un videogioco o su un'indicazione vocale telefono, o si può anche parlare per qualcuno, come per chi soffre di disturbi neurologici. Mentre la tecnologia può sembrare all'avanguardia e futuristico, ha una ricca storia, risalente al XVIII secolo.

Storia remota

I primi tentativi di sintesi vocale ha presentato sotto forma di dispositivi meccanici del XVIII secolo. Nel 1770, Christian Gottlieb Kratzenstein creato una replica dell'apparato vocale umano collegando i tubi di risonanza a canne d'organo. Questo dispositivo era in grado di produrre efficacemente suoni vocalici umano. Poco dopo, nel 1791, Wolfgang von Kempelen pubblicato una carta che descrive un dispositivo di mantice, completare con un reed vocal regolabile, per produrre intonazione, naso e una bocca artificiale. Manipolando la bocca e il naso, l'operatore può ora creare molti suoni consonant, oltre i suoni vocalici.

Modello elettrico in anticipo: Il VODER

Con l'avvento delle innovazioni di ingegneria elettrica in inizio del 20esimo secolo, sintesi vocale ora era possibile con segnali elettrici. Homer Dudley ha presentato il dispositivo più notevole di questo genere, la voce di funzionamento dimostratore (il VODER), presso la fiera mondiale del 1939. L'operatore dei VODER manipolato due sorgenti sonore per sintetizzare la voce: uno "rilassato oscillazione" creato consonante suona, come "aaaa", e uno "fonte di rumore casuale" ha prodotto suoni semivocali, come "ssss". Manipolando l'ampiezza e la frequenza di queste sorgenti sonore, un operatore altamente qualificato potrebbe ricreare intere frasi.

Sintesi vocale moderno: Sintesi vocale (TTS)

L'era moderna di sintesi della voce, ora generalmente chiamata "sintesi vocale"---anche comunemente chiamato "TTS", ebbe inizio nel 1980, quando Dennis Klatt, professore presso il Massachusetts Institute of Technology, ha rivoluzionato la scienza con le sue ricerche che conducono con il sintetizzatore vocale TTS, MITalk. Questi nuovi sistemi di utilizzano un mezzo molto più sofisticato per sintetizzare la voce rispetto ai loro antenati, messa a fuoco per trasformare il testo scritto in una forma d'onda audio. Il processo è duplice: sistema TTS il primo deve abbattere il testo in una rappresentazione interna dei vari suoni associati con ogni parola. Ad esempio, la parola "Aprile" sarà tradotto in suoni "ey/p/r/ih/l." Questa parte del processo è chiamata analisi del testo. Una volta completata l'analisi del testo, il sistema TTS deve mettere i vari suoni insieme per rendere una forma d'onda audio che può essere giocata tramite un altoparlante. Questa parte del processo è chiamata "sintesi di forma d'onda". Mentre i mezzi di analisi del testo sono molto simili tra le piattaforme TTS, i mezzi di sintesi di forme d'onda possono variare da uno dei tre metodi diversi.

Sintesi di forme d'onda nei sistemi moderni

Sistemi di sintesi vocale moderno impiegano una delle tre forme di sintesi di forma d'onda: sintesi concatenativa, sintesi per formanti e sintesi articolatoria. Il più prominente di questi tre metodi, sintesi concatenativa, utilizza le librerie di discorso registrato. Allega questi frammenti di suoni insieme secondo la rappresentazione interna trovato durante la fase di analisi del testo e riferisce intonazione e la lunghezza di ogni frammento. Questo produce una voce coerente, comprensibile e umano-suonante. Sintesi di formato, invece, utilizza un metodo simile per il VODER. Si manipola suoni artificiali per creare un'approssimazione della voce umana, mentre la sintesi di articolazione tenta di ricreare i meccanismi dell'apparato vocale umano. Sintesi di formato, mentre la produzione di discorso intelligibile, produce una voce robotica ma è in grado di visualizzare una vasta gamma di emozioni.

Applicazioni future

Mentre i sistemi di sintesi vocale corrente sono concentrati principalmente sulla tradurre testo scritto in discorso sonoro, uno degli obiettivi finali della scienza è speech-to-speech tecnologia. Questo combina la tecnologia di sintesi vocale con tecnologie di traduzione e riconoscimento vocale. Con speech-to-speech, due persone che parlano in lingue diverse poteva capire l'altro in tempo reale, come un computer traduce istantaneamente la lingua straniera in lingua madre di ogni ascoltatore.