Oggi, ovunque siamo, le voci artificiali ci circondano. Durante la spesa al supermercato, mentre seguiamo un itinerario stradale in auto o quando giriamo per la stazione in attesa che venga annunciato il nostro treno, interagiamo giornalmente con voci sintetiche senza troppo interrogarci su chi ci sia “dietro”.
Siamo forse solo troppo distratti e di fretta per metterci a pensare che spesso il nostro interlocutore non è poi così “umano” o molto più semplicemente ci stiamo via via abituando al fatto che questo fenomeno sia parte della nostra quotidianità.
In questo articolo approfondiremo il tema relativo alla sintesi vocale, con particolare riferimento al Text To Speech (TTS), evidenziandone l’importanza e l’utilità per una soluzione di Contact Center come la nostra.
La tecnica di sintesi vocale o Text To Speech (TTS)
Quando si parla di sintesi vocale si fa riferimento a quel processo attraverso il quale è possibile riprodurre artificialmente la voce umana tramite software o hardware. La sintesi vocale o Text To Speech (TTS) è pertanto un sistema che permette di convertire testo in voce.
Dopo aver ricevuto in input il testo scritto, il sistema TTS provvede a trasformarlo in una rappresentazione linguistica e/o fonetica che è valorizzabile tramite altre informazioni di natura linguistica (ad esempio, informazioni su pause e intonazione).
La qualità di un sintetizzatore vocale non dipende solo dalla somiglianza con la voce umana, ma anche dal suo grado di comprensibilità.
Come funziona un tipico sistema di sintesi vocale
In generale, due sono le parti che compongono un TTS:
- Front-end che si occupa della fase di “normalizzazione”, in cui gestisce ed elabora il testo convertendolo in simboli fonetici;
- Back-end che si occupa della fase di “conversione da testo a fonema”, in cui produce il suono vero e proprio e genera la voce.
La biblioteca del TTS
Quante volte ci è capitato di sentire il nostro navigatore pronunciare in modo buffo una località che avevamo impostato come destinazione? Forse anche a distanza di tempo, episodi come questo ci tornano in mente facendoci sorridere ancora. Ma perché questo accade?
Ciò si verifica perché un TTS ha bisogno di essere istruito su come una parola debba essere pronunciata, sul tipo di tono da utilizzare, sul modo in cui una sigla o un numero debbano essere letti e su molto altro.
Per comprendere quanto siano importanti queste indicazioni, pensiamo a cosa succederebbe se il TTS non “sapesse” che l’arabo va letto da destra verso sinistra!
Infine è bene precisare che, sebbene la riproduzione di messaggi preregistrati opportunamente concatenati (storica tecnica alternativa e precedente al TTS) sia utilizzabile nella maggior parte dei casi (compresa la riproduzione di numeri), il TTS è essenziale nei servizi che devono recitare contenuti variabili basati su un ampio insieme di valori possibili (ad esempio riproduzione di vie, nomi di città o nomi propri).
Ambiti di applicazione
Diversi sono i contesti in cui la sintesi vocale può essere utile:
- Assistenza: la possibilità di convertire un testo in voce contribuisce ad abbattere muri a favore di persone che soffrono di dislessia o hanno problemi di vista permettendogli di ascoltare i documenti scritti su un pc senza alcuna difficoltà;
- Trasporti: all’interno di stazioni e aeroporti le voci sintetiche facilitano la trasmissione delle comunicazioni ai viaggiatori;
- Tempo libero: le voci artificiali vengono sfruttate ampiamente in questo campo, in particolare, nella produzione di videogiochi, manga e simili;
- Contact Center: nell’ambito dell’assistenza clienti, con le voci sintetizzate è possibile offrire un’esperienza vocale di alta qualità e maggiormente coinvolgente che farà percepire il servizio come più accogliente e “customizzato”.
Il text to speech come funzionalità di Comsy
Nell’elenco dei contesti applicativi del Text To Speech figura anche il Contact Center. Questa funzionalità è integrata nella nostra soluzione Comsy Contact Center e permette al Cliente di scegliere tra diversi provider di TTS, in base alle sue esigenze, mantenendo inalterata la qualità del servizio.
Il TTS è molto utile in un Contact Center in quanto permette di utilizzare nei messaggi registrati una voce sintetica omogenea, incrementando il valore del servizio che risulta più fluido.
Infine, per le comunicazioni informative basilari e standard, avere la possibilità di usufruire del TTS al posto di un operatore fisico comporta un considerevole abbattimento di costi aziendali a fronte di un medesimo risultato in termini di Customer Experience.