105 messaggi dal 09 luglio 2009
Buonasera ragazzi,
dovrei effettuare la realizzazione di una applicazione WEB asp.net che preveda la trascrizione dell'audio di un video che nel frattempo viene riprodotto.

Sapete indicarmi qualche servizio che magari già conoscete? grazie
11.651 messaggi dal 09 febbraio 2002
Contributi
Ciao Marco,


un video che nel frattempo viene riprodotto.

Definisci cosa intendi con "nel frattempo". Si tratta di un video live che ti arriva da un server di streaming?
Oppure è un video on-demand?
Chiarisci bene qual è la fonte del video e se impieghi server di streaming.


Sapete indicarmi qualche servizio che magari già conoscete?

Secondo me, al momento, il servizio che fornisce la qualità migliore di trascrizione è Google Cloud Speech-to-text.

Il secondo è AWS Transcribe, ma ha un po' di difficoltà con le parole straniere.

Ciascuno di questi servizi è in grado di restituirti la trascrizione e, per ogni parola, l'esatto offset in cui è stata pronunciata. In questo modo puoi produrre un file di sottotitoli in formato WebVTT che dovrai passare al player insieme al flusso video.

ciao,
Moreno

Enjoy learning and just keep making
105 messaggi dal 09 luglio 2009
Ciao Moreno.
Intendo una funzionalità che, mentre un video viene eseguito, in tempo reale venga trascritto il suo testo... scusami se sono stato poco chiaro
11.651 messaggi dal 09 febbraio 2002
Contributi
Ciao Marco,
nessun problema, ma non è ancora chiaro.


mentre un video viene eseguito, in tempo reale

Da dove arriva questo video? E' un mp4? E' un flusso HLS?
La trascrizione va fatta a priori per poi esporla come sottotitoli WebVTT, altrimenti se devi farla in tempo reale per ogni utente che guarda il video ti costerà una tombola (e non è neanche possibile farla in tempo reale).

ciao,
Moreno
Modificato da BrightSoul il 05 giugno 2019 23:31 -

Enjoy learning and just keep making
105 messaggi dal 09 luglio 2009
Mi sa che allora mi è necessario documentarmi meglio... il video sarebbe un file mp4 caricato su un server e visto da più utenti su una pagina...
11.651 messaggi dal 09 febbraio 2002
Contributi

Mi sa che allora mi è necessario documentarmi meglio...

Già... c'è una bella massa sommersa da scoprire, grossa come quella di un iceberg.


il video sarebbe un file mp4 caricato

Non è detto che l'mp4 funzioni su tutti i browser. Lo dovresti trascodificare in HLS (o CMAF) con ffmpeg, come ho cercato di spiegare qui:
https://forum.aspitalia.com/forum/post/423090/ASP-NET-FILE-.AVI.aspx

All'atto dell'upload, oltre a trascodificarlo in HLS, dovresti anche trascodificarlo in flac o comunque in uno dei formati supportati dal servizio di trascrizione.

Se usi Google per la trascodifica, lo dovrai anche spezzettare perché ammette frammenti di massimo 1 minuto alla volta. Oppure caricarlo prima tutto su Google Cloud Storage e poi avviare la trascodifica. Ecco:
https://cloud.google.com/speech-to-text/docs/async-recognize?hl=it#speech-async-recognize-gcs-protocol
Io ti consiglio di caricarlo su Google Cloud Storage se no vai incontro a un'infinità di problemi, tra cui pessima trascrizione in corrispondenza dei tagli (a meno che tu non ti metta a rilevare il silenzio e tagliare lì).

Io sto lavorando a questa cosa da qualche mese per un nostro servizio di video streaming. Di solito la trascrizione non va bene così com'è, ma non so che utilizzo devi farne tu. Se è per i non udenti, probabilmente risulterà tollerabile e comprensibile anche così imprecisa com'è, ma se devi fare una trascrizione fedele al 100% a ciò che è stato pronunciato, allora preparati a realizzare anche un'interfaccia che consenta a un amministratore di revisionare la trascrizione.

ciao,
Moreno
Modificato da BrightSoul il 06 giugno 2019 00:06 -

Enjoy learning and just keep making
105 messaggi dal 09 luglio 2009
Mi documenterò . Grazie intanto Moreno:)
221 messaggi dal 13 novembre 2009
Buongiorno,
Mi sto cimentando anche io sulla materia. E devo dire che è complessa in quanto gli strumenti sono limitati. Mi spiego meglio col dire ad esempio che il servizio speech to text non va oltre il minuto. Poi se affrontiamo il discorso app o navigazione web da cellulare la cosa si complica ulteriormente getusermedia & co non sono supportati in maniera trasversale e limitati. I sintetizzatori vocali e le librerie anche, su Android sfruttare il riconoscimento e la dettatura significa scontrarsi con una marea di limiti, non parliamo di iOS.
Che ne pensate?

Torna al forum | Feed RSS

ASPItalia.com non è responsabile per il contenuto dei messaggi presenti su questo servizio, non avendo nessun controllo sui messaggi postati nei propri forum, che rappresentano l'espressione del pensiero degli autori.