Algoritmo di riconoscimento vocale per intelligenza artificiale

Condividi l'Articolo

Algoritmo supera umani nel riconoscimento del linguaggio parlato. Per la prima volta un algoritmo di intelligenza artificiale supera gli esseri umani per quanto riguarda la precisione del riconoscimento vocale. Lo riportano alcuni ricercatori dell’Istituto di Tecnologia di Karlsruhe (KIT) che, in uno studio pubblicato su arXiv, spiegano di aver sviluppato un nuovo sistema informatico che supera gli esseri umani per quanto riguarda il riconoscimento del linguaggio parlato e il tutto con una latenza minima.

Riconoscere il linguaggio parlato è ritenuta infatti una delle capacità umane più difficilmente riproducibili, o almeno lo era fino a qualche anno fa, ossia fino a quando gli algoritmi hanno fatto capire di poter dire la loro.Oggi, infatti, la maggior parte delle persone preferisce letteralmente dettare al proprio smartphone un messaggio da mandare (o anche un comando) piuttosto che scriverlo o digitare sulla tastiera. Questo perché gli stessi algoritmi che riconoscono il linguaggio parlato sono diventati sempre più complessi deficienti.

Tuttavia quando le persone discutono tra loro il discorso è diverso: di solito o ci sono interruzioni quali balbettii, esitazioni, rumori vari, colpi di tosse, risatine, eccetera che rendono molto difficile il riconoscimento del linguaggio da parte di qualsiasi algoritmo.

I ricercatori del KIT dichiarano ora di aver realizzato un algoritmo che esegue proprio questo compito, ossia quello di ascoltare e capire gli esseri umani quando elaborano un linguaggio naturale, più velocemente di qualsiasi altro sistema simile e addirittura meglio degli esseri umani stessi.

Da google premio milionario per algoritmi quantistici

Secondo quanto spiega Alex Waibel, un professore di informatica al KIT ed uno degli autori dello studio partecipanti al progetto, il tasso di errore umano nel comprendere il linguaggio parlato è di circa il 5,5%. Il nuovo algoritmo ha raggiunto invece un tasso di errore del 5%.
Inoltre anche la velocità del sistema nel comprendere il parlato il produrre un output è altrettanto considerevole. I ricercatori hanno infatti ridotto questa latenza ad una secondo, la più breve mai raggiunta da parte di un algoritmo per quanto riguarda il riconoscimento del linguaggio umano parlato.

Questi tassi di errore e la latenza sono stati misurati tramite test scientifici standardizzati e riconosciuti a livello internazionale. Il riconoscimento vocale del linguaggio umano, quello che utilizziamo quando parliamo con le altre persone, è ritenuta una delle colonne portanti dell’interazione con le intelligenze artificiali e, per quanto riguarda il futuro un po’più inoltrato, con le stesse macchine.