Audio-to-text: Spracherkennung in CS4

Speech Transcription CS4Ein absolut spannendes, wenn nicht sogar zentrales Feature der kommenden Creative Suite 4 (CS4) ist die automatisierte Spracherkennung. Mit der Spracherkennung wird die Audiospur eines Videos analysiert und in Form eines echten Textes transkribiert. Dieser Text wird dann direkt in die Metadaten der Videodatei geschrieben.

Die Transkription wird mithilfe des Adobe Media Encoder durchgeführt. Dieser Prozess ist recht rechenintensiv, MacWorld schreibt in einem schon etwas älteren Test der Soundbooth CS4 Beta: „Transcribing a file at the Medium setting works in just about real time—if you have 15 minutes of audio to transcribe, it takes about that long to create the transcript.“

Das folgende Video zeigt, wie die Spracherkennung in CS4 funktioniert:

Produktion

Ich erinnere mich an viele Situationen beim Videoschnitt, in denen ich beim Schneiden eine Stelle suchte (z.B. Person sagt „xyz“), diese jedoch nicht fand. Liegen die gesprochenen Texte als Metadaten vor, kann man die entsprechende Position einfach über die Suchfunktion des Schnittprogramms ermitteln.

Ebenfalls nützlich ist das ganze bei der Erstellung von Untertiteln, sei es für DVD oder Internet. Oder wenn es einfach darum geht, das gesprochene zu Papier zu bringen.

[ad]

Web

Auch im Hinblick auf das Web hat eine solche Technologie enormes Potenzial. Bisher werden die eigentlichen Videoinhalte von Google & Co. nicht erfasst, da diese von den Suchmaschinen nicht indiziert werden können. Bei konsequentem Einsatz von Metadaten kann die heute schon zahlreichen Videos im Web durchsuchbar gemacht werden.

Die Werbeindustrie dürfte sich ebenfalls dafür interessieren, automatisierten Zugriff auf die Videoinhalte zu haben, um z.B. kontextsensitiv Werbung einzublenden.

Qualität

Selbstverständlich ist es so, dass je besser die Qualität der Audiospur ist (wenig Nebengeräusche, Soundqualität, keine Musik, etc.), desto besser werden die Ergebnisse. Das Feature kann übrigens laut Adobe auch mehrere Sprecher unterscheiden.

Ich bin gespannt auf die Qualität der Spracherkennung. Mit Sicherheit müssen die Texte noch nachbearbeitet. Jan Ozer schreibt zur Qualität: „the transcription was about 90-percent to 95-percent accurate; this was certainly good enough to help me quickly find the clips that I was looking for.“

Zu guter Letzt stellt sich die Frage, ob Adobe dieses Feature auch für die deutsche Sprache implementiert hat und ob es ggf. auch in deutsch gut funktioniert? ;-)

Link: Using Speech Search to speed editing
Link: First Look: Adobe Soundbooth CS4 beta
Link: A sneak preview of the wide-ranging new Adobe Creative Suite 4 Production Premium (CS4).

4 Gedanken zu „Audio-to-text: Spracherkennung in CS4“

  1. Die Tests zeigen eine recht gute Trefferquote bei deutschen Texten. Dazu habe ich eine Sendung der Tagesschau genutzt: Klare Aussprache, keine störenden Geräusche oder Musik im Hintergrund.

    Eine Frage: In einem MAX-Vortrag habe ich gehört, dass es eine Konsolenversion (server-side) für das Transkribieren geben soll. Kann das jemand bestätigen? Wenn ja, wo ist das zu finden?

  2. Hi Martn,
    danke für das Feedback und die Information!

    Von einer serverseitigen Lösung habe ich noch nichts gehört.

    Viele Grüße Florian

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert