il tempo scorre fra le dita. Tra il pollice e l'indice scorre la sabbia che si accumula al fondo della pagina. La mano rappresenta una delle mudra più usate nel pranayama yoga (Jnana Mudra). Questo gesto accompagna anche la meditazione.

Videoblog

« RING! 8° festival della critica cinematografica | home | Conferenza stampa "Il Festival e la disabilità" al Festival del Film di Roma »

Respeaking a scuola: Speech Recognition per trasformare in tempo reale il parlato in testo

Il sostegno a studenti non udenti può avvenire con interpreti in lingua dei segni, come avviene a Cossato e in altre realtà dove si attua il bilinguismo italiano-LIS, oppure, ed è la prima volta che mi ci imbatto in ambito scolastico, con la sottotitolazione in tempo reale, in classe, col respeaking.

In questo video si conosce uno scenario che francamente mi pare abbastanza improbabile nella scuola italiana (anche alla luce di quanto avviene nella accessibilità in didattica per i libri scolastici), e forse anche in quella statunitense: si sa che il marketing per vendere un prodotto che costa a licenza migliaia di Euro può essere molto aggressivo...

Webmultimediale.org videoblog. Flash Needed. You may download Adobe Flash Player to view all the content on this site. Per visualizzare il filmato serve il plugin Flash, disponibile per tutti i sistemi operativi e per tutti i browser. Scaricalo (basta un minuto).



Il "Voice captioner" ri-dice in tempo reale (respeaking) il discorso dell'educatore, all'interno di una maschera che consente di non disturbare la classe, e il software di riconoscimento vocale addestrato a riconoscerne la voce trasforma in testo il parlato, pertanto il messaggio viene reso accessibile a chi non sente attraverso il display di Pc portatili di cui ciascun discente dispone sul suo banco.

il Voice-captioner usa un microfono rinchiuso in una maschera per ripetere la lezione in tempo reale, trasformando il parlato in testo con la Speech recognition


Software molto costoso, che richiede una professionalità molto specialistica.
In futuro è possibile che sistemi con queste caratteristiche diventino più abbordabili
, come si prefigura nella mia video-intervista a Raj Rishi Purohit.
Questo consentirebbe di aumentare le possibilità di integrazione per le persone non udenti, estendendo sia questi scenari didattici che la sottotitolazione dei video sul Web, oggi scarsamente diffusa per i tempi e i costi che richiede la realizzazione manuale di trascrizione e temporizzazione, o la sottotitolazione in real-time con personale qualificato.

Commenti (6)

Saveria Arma:

Mi permetto di commentare il link perché è un argomento che mi sta particolarmente a cuore e di cui mi sono occupata per qualche tempo per motivi ricerca e attualmente per ragioni professionali. Concordo con te quando dici che lo scenario è alquanto improbabile nelle scuole italiane, soprattutto per i costi della stenomask (che mediamente ha un costo comunque non superiore ai 200 dollari), dei software e non solo. In più, almeno per la mia esperienza, la stenomask non isola assolutamente la voce dal resto dall'ambiente acustico circostante e spesso il suo uso rischia di compromettere negativamente la performance del respeaker (anche se questo aspetto può dipendere dall'esperienza dell'operatore in questione). Se l'operatore parla troppo vicino alla stenomask, la sua voce viene distorta dalla stessa, e quindi diventa meno riconoscibile; se parla troppo lontano, il suo uso è vano. Occorre quindi nella migliore delle ipotesi trovare il giusto equilibrio nell'uso della stenomask, che so comunque essere utilizzata con successo e soddisfazione negli Stati Uniti soprattutto per la resocontazione. Questo dovrebbe incoraggiarci ad effettuare oppportuni tenativi e ulteriori sperimentazioni.

In questo caso, inoltre, non so se il software utilizzato sia speaker independent oppure no. Nel caso in cui non lo fosse, ogni operatore dovrebbe avere il suo profilo personale. La calibrazione dei volumi e del setup audio dipende in gran parte dall'ambiente acustico e dall'utilizzo o meno di una stenomask; spesso le condizioni acustiche possono variare anche con relativa frequenza durante la stessa sessione di respeaking.

L'Università di Bologna stava (e credo stia ancora) collaborando con IBM per il progetto LiberatedLearning (www.liberatedlearning.com); in quel contesto il team, di cui ho fatto parte per circa un anno, utilizzava Via Scribe, interfaccia speaker independant di IBM Via Voice, ma almeno per l'italiano i primi tentativi sono stati disastrosi.

In più, come tu scrivi, ci vogliono professionalità molto specialistiche, con grande conoscenza del respeaking, dei software, dei non udenti e della materia trattata.

Infine, non so se in questo caso gli appunti necessitano una correzione e un editing a posteriori, oppure no. Nella migliore delle ipotesti, il non udente legge quello che il respeaker detta senza errori. Se ci sono molti errori di riconoscimento, ci vorranno interventi di correzioni simultanei (o quasi) alla dettatura. Inoltre, il testo potrebbe dover essere rimaneggiato dopo la dettatura per poter essere messo in rete, condiviso e reso disponibile agli interessati. A questo punto ci vuole un'attività di editing, che trasformi il testo dettato/parlato in testo dettato/scritto. Avere la traccia audio originale a disposizione può rivelarsi molto utile in questo caso.

Spero che iniziative come queste possano diffondersi presto anche in Italia anche a livello sperimentale.
Grazie a te per aver condiviso l'informazione.

Vera


Grazie, informazioni preziose.
Citati i competitor, è corretto dire che il software di cui si parla nel video è "Caption Mic", www.mhsa.us. Va sui 4.000$ a licenza.

>>> utilizzava Via Scribe, interfaccia speaker independant di IBM Via Voice, ma almeno per l'italiano i primi tentativi sono stati disastrosi.

Sì in effetti anche nella mia intervista video a Raj Rishi si arriva a conclusioni analoghe, ci vorrà ancora tempo.


carlo:

Aggiungo una precisazione a quanto detto giustamente da Vera. Le stenomask costano circa 300 dollari e vengono dal Canada. Forse ci sono altre case che le producono, ma fino all'anno scorso non ero a conoscenza di produttori competitivi in Europa.
Quanto al software Dragon Naturally Speaking Standard costa 99 euro e il Preferred 199. Il Professional arriva a un migliaio di euro, ma non serve a molto in un contesto come questo. Quanto all'interfaccia, sempre in questo contesto, è assolutamente inutile perché allo studente serve un semplice file di testo e anche il "grezzo" dragonpad (la versione Dragon di Wordpad) è più che sufficiente. Credo che di questi tempi investire qualche centinaio di euro per ottenere grandi risultati non sarebbe una scelleratezza ma una questione di buon senso. Il problema è la mancanza di personale qualificato nel settore. Purtroppo, per molti motivi (tra i maggiori la differenza tra scritto e parlato; l'impossibilità di avere un buon risultato con software speaker independent cioè che si adatti a tutte le voci senza previe preparazioni o adattamenti; l'obiettiva difficoltà dell'operazione che il respeaker deve attuare) i costi del respeaking sono molto elevati. "Basterebbe" una formazione mirata dei maestri di sostegno (si chiamano ancora così?) e lo studente sordo ne gioverebbe in maniera grandiosa. Per ora si può solo affittare un costoso servizio anche a distanza.


Franco:

Nell'istituto comprensivo in cui insegno, ci siamo posti il problema delle tecnologie utili ad un bambino non udente che attualmente frequenta la seconda classe della primaria.
Abbiamo quindi dotato l'aula di una Lavagna Interattiva Multimediale, e l'idea "plus" era di sperimentare un sistema che fosse in grado di "sottotitolare" le lezioni delle maestre sul laptop del bambino.
Il sistema individuato era Dragon come software di acquisizione audio, e VoiceMeeting come software di sottotitolazione. A questo punto mi pare che la tecnologia in questione sia matura per essere sperimentata.
Tenterò nei prossimi giorni di renderla operativa.


Grazie Franco, tienimi aggiornato sulla sperimentazione.


Saveria Arma:

Buonasera Franco, ci tenga aggiornati sulla sperimentazione.
Voice Meeting si serve di Dragon per cui non è necessario usare i due software. La tecnologia è matura abbastanza, credo, per dare buoni risultati; i dubbi rimangono sulla preparazione di adeguate risorse umane, ma bisogna pur cominciare ! In bocca al lupo !


Pubblica un commento

(il commento potrebbe richiedere attesa per la moderazione)

immagine di Roberto Ellero, curatore di questo videoblog

Contatti

Chi sono


leggi i videoblog degli amici autori di Webmultimediale


Almansi videoblog

Bordato videoblog



diventiamo amici su Facebook
Profilo Facebook di Roberto Ellero
View Roberto Ellero's profile on LinkedIn
Newsletter

Iscriviti per ricevere gli aggiornamenti:



Questa pagina contiene un singolo post pubblicato in data 29.09.09 15:45.

Il post precedente è RING! 8° festival della critica cinematografica.

Il post successivo è Conferenza stampa "Il Festival e la disabilità" al Festival del Film di Roma.

Puoi trovare altri contenuti nella pagina iniziale o cercando negli archivi.

E' vietata la riproduzione totale o parziale del layout e dei contenuti (testi, immagini, filmati) su carta, supporti tecnologici (floppy, CD-ROM, siti web, ...) e altro per ricavarne lucro, o per distribuirlo come proprio o per qualsiasi altra motivazione, senza il consenso scritto del responsabile del sito

informativa privacy

note legali

IWA Useful Resource

Valid XHTML 1.0 Strict

Valid CSS 2