Stabilità dei Parametri nello Speaker Recognition: la variabilità intra e inter parlatore F0, durata e articulation rate

Romito, Luciano; Lio, R; Perri, P; Giordano, Sabrina

La tendenza della ricerca attuale in ambito di Speaker Recognition (SR) è volta a individuare informazioni quanto più oggettive possibili presenti nella voce umana analizzando la produzione di un parlatore senza occuparsi della sfera semantica, della produzione linguistica o della struttura sintattica e morfologica. In aggiunta i metodi noti come semiautomatici e parametrici si occupano di dati considerati statici. Tale scelta in primo luogo è giustificata dalla relativa facilità della misura e dal trattamento di un ristretto numero di parametri (cfr. Barlow & Wagner, 1998) e in secondo luogo perché la misura di dati statici è la naturale evoluzione di una tradizionale analisi linguistica (cfr. McDougall, 2006). Sono i segmenti statici quelli utilizzati per lo studio delle lingue, si pensi agli inventari fonologici, alle aree di esistenza delle vocali costruite su porzioni stazionarie (mid point o steady state), alle rotazioni consonantiche o alle regole fonologiche. Tale analisi prende lo spunto dalla necessità di differenziare due lingue, due dialetti o una lingua da un dialetto. Così, grande spazio nelle riviste, occupano concetti quali isoglosse o isofone utilizzati per identificare confini ideali tra due lingue o tra due dialetti. Quanto detto risulta funzionale per differenziare ma non per riconoscere, o addirittura identificare. Di fatto anche il concetto di isoglossa oggi viene sostituito dall’idea più ‘analogica’ di corridoio di transizione, una larga fascia dove coesistono variabili differenti che caratterizzano entrambe le lingue o i dialetti contigui.1 Un parlante nel produrre un messaggio o un atto comunicativo attraverso un meccanismo astratto (linguistico), organizza target e goal che, in seguito, verranno tradotti in azioni che si realizzeranno in un ‘progetto fonetico’. Il meccanismo linguistico è essenzialmente l’insieme delle regole e della grammatica del parlante; è la lingua costituita dal lessico, dalla morfologia, dalle opposizioni fonologiche, dalla sintassi, ecc. Tale meccanismo è fortemente influenzato dall’età, dal sesso, dal controllo fonologico, da fattori sociali quali l’origine geografica, lo stato economico, il contesto, la scolarizzazione, ecc. Nolan, a tal proposito, nel 1997 (p.749) scrive: “In implementing the resources of their linguistic mechanism, speakers have to map them onto their individual anatomy. Whilst the requirements of communication may determine many of the details of speech articulation, we may hypothesize that there may be aspects of speech production where each individual is free to find his or her own articulatory solution. The speaker’s behavior here is not ‘learned’ as part of the shared knowledge of the linguistic community; rather it is acquired, probably by trial and error”. Due differenti parlanti possono eseguire progetti fonetici differenti per lo stesso scopo linguistico e le conseguenze acustiche di tali progetti possono aiutare molto nel differenziare, anche se, a nostro avviso le modifiche non riguarderanno la parte statica del segnale. Lo scopo di questo progetto di ricerca, i cui primi risultati sono stati presentati ai Convegni AISV 2006 e 2007, è quello di studiare la variabilità interna di alcuni parametri acustici, di verificare la correttezza di un confronto o di una comparazione basata sul progetto fonetico e quindi su parametri dinamici e di comparare i risultati ottenuti con quelli basati su parametri considerati statici. Verrà analizzato soprattutto l’effetto prodotto da differenti canali di registrazione, da differenti stili di parlato e da differenti software di analisi. In questa ricerca l’attenzione non è focalizzata sul numero degli intervistati bensì sulla varietà dei canali di registrazione investigati e degli stili di parlato considerati.