Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Einführung in die maschinelle Verarbeitung gesprochener Sprache

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%|25%] BS-CL, BS-AC 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
Magister - -
Dozenten/-innen Laura Jehl
Veranstaltungsart Vorlesung
Erster Termin 25.04.2012
Zeit und Ort Mi, 09:1510:45, INF 325 / SR 24 (SR)

Teilnahmevoraussetzungen

Erfolgreiche Teilnahme an den Veranstaltungen "Einführung in die Computerlinguistik" und "Formale Grundlagen"

Leistungsnachweis

  • Durchführung und Dokumentation einer der Praxisübungen
  • Bestehen der Klausur

Inhalt

In dieser Veranstaltung werden wir uns mit den Grundlagen der maschinellen Verarbeitung gesprochener Sprache beschäftigen. Zunächst werden wir uns einen Überblick verschaffen, wie Sprachlaute erzeugt werden, welche Eigenschaften sie haben und wie man sie mithilfe von Spektrogrammen analysieren kann. Anschließend werden wir uns mit den zwei Hauptanwendungen aus dem Bereich der Sprachverarbeitung beschäftigen: Sprachsynthese (Speech Synthesis) und Spracherkennung (Speech Recognition). Ziel ist es sowohl die Theorie hinter diesen Anwendungen zu verstehen, als auch in praktischen Übungen das Gelernte direkt anzuwenden.

Kursübersicht

Seminarplan

Datum Sitzung Materialien
25.4. Einführung; Schallwellen, Spektrum, Spektrogramm, Resonanz
2.5. Erzeugung und Wahrnehmung von Sprache, akustische Phonetik Ladefoged, Kap. 7-9
9.5. Sprachsynthese I - Methoden und Textvorverarbeitung
16.5. Sprachsynthese II - Prosodie, Diphones, TD-PSOLA Jurafsky & Martin, Kap. 8
23.5. Sprachsynthese III - Erzeugung der Wellenform (Linear Prediction), Evaluation Ladefoged, Kap. 11
**Dienstag, 29.5., 11-13 Uhr** Praxissession Sprachsynthese
6.6. entfällt wegen Konferenz
13.6. Spracherkennung I - Einführung, Feature Extraktion, Dynamic Time Warping Jurafsky & Martin, 9.3; Holmes & Holmes, Kap. 10
20.6. Spracherkennung II - Probabilistische Modelle für ASR - Praxisaufgabe Jurafsky & Martin, 9.4
27.6. Spracherkennung III - Hidden Markov Models für ASR, Evaluation Jurafsky & Martin, 9.1, 9.2 und 9.5; Holmes & Holmes, 9.1-9.4
4.7. Spracherkennung IV - ASR für kontinuierliche Sprache, HMM Training Jurafsky & Martin, 6.2-6.5; Holmes & Holmes, 9.5, 9.8 und 9.9
11.7. HMM-basierte Sprachsynthese Taylor, Paul: Text-to-Speech Synthesis, Kap. 15
18.7. Wiederholungssession
25.7. Klausur

Aufgaben

Infos zur benoteten Praxisaufgabe:

  • Abgabetermin:18.7.
  • Abzugeben ist nur die schriftliche Ausarbeitung (bis 15 Seiten), bitte kein Code/Dateien etc.!
  • Abgabe: eine ausgedruckte Version im Sekretariat und eine digitale Version per Mail an jehl@cl...
  • Bitte schreibt nur die Matrikelnummer auf den Bericht und keine Namen!
  • Die Praxisaufgabe zählt 30% der Gesamtnote.
  • Eine Bearbeitung in Gruppen ist nicht erlaubt!
Bei Problemen und Fragen meldet euch bitte möglichst frühzeitig!

Literatur

  • P. Ladefoged (1996). Elements of Acoustic Phonetics. Second edition.
  • D. Jurafsky and J. Martin (2009). Speech and Language Processing. Second edition.
  • J. N. Holmes and W. J. Holmes (2001). Speech Synthesis and Recognition.

» weitere Kursmaterialien

zum Seitenanfang