Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Lehrveranstaltungen
heiCO
Ressourcen	Fachschaft
Studien-FAQ	Technik-FAQ

Einführung in die maschinelle Verarbeitung gesprochener Sprache

Kursbeschreibung

Studiengang	Modulkürzel	Leistungs- bewertung
BA-2010[100%\|75%]	CS-CL	6 LP
BA-2010[50%\|25%]	BS-CL, BS-AC	4 LP
NBA[100%\|75%]	CS-CL	6 LP
NBA[50%\|25%]	BS-CL, BS-AC	4 LP
Magister	-	-

Dozenten/-innen	Laura Jehl
Veranstaltungsart	Vorlesung
Erster Termin	25.04.2012
Zeit und Ort	Mi, 09:15–10:45, INF 325 / SR 24 (SR)

Teilnahmevoraussetzungen

Erfolgreiche Teilnahme an den Veranstaltungen "Einführung in die Computerlinguistik" und "Formale Grundlagen"

Leistungsnachweis

Durchführung und Dokumentation einer der Praxisübungen
Bestehen der Klausur

Inhalt

In dieser Veranstaltung werden wir uns mit den Grundlagen der maschinellen Verarbeitung gesprochener Sprache beschäftigen. Zunächst werden wir uns einen Überblick verschaffen, wie Sprachlaute erzeugt werden, welche Eigenschaften sie haben und wie man sie mithilfe von Spektrogrammen analysieren kann. Anschließend werden wir uns mit den zwei Hauptanwendungen aus dem Bereich der Sprachverarbeitung beschäftigen: Sprachsynthese (Speech Synthesis) und Spracherkennung (Speech Recognition). Ziel ist es sowohl die Theorie hinter diesen Anwendungen zu verstehen, als auch in praktischen Übungen das Gelernte direkt anzuwenden.

Kursübersicht

Seminarplan

Datum	Sitzung	Materialien
25.4.	Einführung; Schallwellen, Spektrum, Spektrogramm, Resonanz
2.5.	Erzeugung und Wahrnehmung von Sprache, akustische Phonetik	Ladefoged, Kap. 7-9
9.5.	Sprachsynthese I - Methoden und Textvorverarbeitung
16.5.	Sprachsynthese II - Prosodie, Diphones, TD-PSOLA	Jurafsky & Martin, Kap. 8
23.5.	Sprachsynthese III - Erzeugung der Wellenform (Linear Prediction), Evaluation	Ladefoged, Kap. 11
Dienstag, 29.5., 11-13 Uhr	Praxissession Sprachsynthese
6.6.	entfällt wegen Konferenz
13.6.	Spracherkennung I - Einführung, Feature Extraktion, Dynamic Time Warping	Jurafsky & Martin, 9.3; Holmes & Holmes, Kap. 10
20.6.	Spracherkennung II - Probabilistische Modelle für ASR - Praxisaufgabe	Jurafsky & Martin, 9.4
27.6.	Spracherkennung III - Hidden Markov Models für ASR, Evaluation	Jurafsky & Martin, 9.1, 9.2 und 9.5; Holmes & Holmes, 9.1-9.4
4.7.	Spracherkennung IV - ASR für kontinuierliche Sprache, HMM Training	Jurafsky & Martin, 6.2-6.5; Holmes & Holmes, 9.5, 9.8 und 9.9
11.7.	HMM-basierte Sprachsynthese	Taylor, Paul: Text-to-Speech Synthesis, Kap. 15
18.7.	Wiederholungssession
25.7.	Klausur

Aufgaben

Infos zur benoteten Praxisaufgabe:

Abgabetermin:18.7.
Abzugeben ist nur die schriftliche Ausarbeitung (bis 15 Seiten), bitte kein Code/Dateien etc.!
Abgabe: eine ausgedruckte Version im Sekretariat und eine digitale Version per Mail an jehl@cl...
Bitte schreibt nur die Matrikelnummer auf den Bericht und keine Namen!
Die Praxisaufgabe zählt 30% der Gesamtnote.
Eine Bearbeitung in Gruppen ist nicht erlaubt!

Bei Problemen und Fragen meldet euch bitte möglichst frühzeitig!

Literatur

P. Ladefoged (1996). Elements of Acoustic Phonetics. Second edition.
D. Jurafsky and J. Martin (2009). Speech and Language Processing. Second edition.
J. N. Holmes and W. J. Holmes (2001). Speech Synthesis and Recognition.