Einführung in die maschinelle Verarbeitung gesprochener Sprache
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%|25%] | BS-CL, BS-AC | 4 LP |
NBA[100%|75%] | CS-CL | 6 LP |
NBA[50%|25%] | BS-CL, BS-AC | 4 LP |
Magister | - | - |
Dozenten/-innen | Laura Jehl |
Veranstaltungsart | Vorlesung |
Erster Termin | 25.04.2012 |
Zeit und Ort | Mi, 09:15–10:45, INF 325 / SR 24 (SR) |
Teilnahmevoraussetzungen
Erfolgreiche Teilnahme an den Veranstaltungen "Einführung in die Computerlinguistik" und "Formale Grundlagen"
Leistungsnachweis
- Durchführung und Dokumentation einer der Praxisübungen
- Bestehen der Klausur
Inhalt
In dieser Veranstaltung werden wir uns mit den Grundlagen der maschinellen Verarbeitung gesprochener Sprache beschäftigen. Zunächst werden wir uns einen Überblick verschaffen, wie Sprachlaute erzeugt werden, welche Eigenschaften sie haben und wie man sie mithilfe von Spektrogrammen analysieren kann. Anschließend werden wir uns mit den zwei Hauptanwendungen aus dem Bereich der Sprachverarbeitung beschäftigen: Sprachsynthese (Speech Synthesis) und Spracherkennung (Speech Recognition). Ziel ist es sowohl die Theorie hinter diesen Anwendungen zu verstehen, als auch in praktischen Übungen das Gelernte direkt anzuwenden.
Kursübersicht
Seminarplan
Datum | Sitzung | Materialien |
25.4. | Einführung; Schallwellen, Spektrum, Spektrogramm, Resonanz | |
2.5. | Erzeugung und Wahrnehmung von Sprache, akustische Phonetik | Ladefoged, Kap. 7-9 |
9.5. | Sprachsynthese I - Methoden und Textvorverarbeitung | |
16.5. | Sprachsynthese II - Prosodie, Diphones, TD-PSOLA | Jurafsky & Martin, Kap. 8 |
23.5. | Sprachsynthese III - Erzeugung der Wellenform (Linear Prediction), Evaluation | Ladefoged, Kap. 11 |
**Dienstag, 29.5., 11-13 Uhr** | Praxissession Sprachsynthese | |
6.6. | entfällt wegen Konferenz | |
13.6. | Spracherkennung I - Einführung, Feature Extraktion, Dynamic Time Warping | Jurafsky & Martin, 9.3; Holmes & Holmes, Kap. 10 |
20.6. | Spracherkennung II - Probabilistische Modelle für ASR - Praxisaufgabe | Jurafsky & Martin, 9.4 |
27.6. | Spracherkennung III - Hidden Markov Models für ASR, Evaluation | Jurafsky & Martin, 9.1, 9.2 und 9.5; Holmes & Holmes, 9.1-9.4 |
4.7. | Spracherkennung IV - ASR für kontinuierliche Sprache, HMM Training | Jurafsky & Martin, 6.2-6.5; Holmes & Holmes, 9.5, 9.8 und 9.9 |
11.7. | HMM-basierte Sprachsynthese | Taylor, Paul: Text-to-Speech Synthesis, Kap. 15 |
18.7. | Wiederholungssession | |
25.7. | Klausur |
Aufgaben
Infos zur benoteten Praxisaufgabe:
- Abgabetermin:18.7.
- Abzugeben ist nur die schriftliche Ausarbeitung (bis 15 Seiten), bitte kein Code/Dateien etc.!
- Abgabe: eine ausgedruckte Version im Sekretariat und eine digitale Version per Mail an jehl@cl...
- Bitte schreibt nur die Matrikelnummer auf den Bericht und keine Namen!
- Die Praxisaufgabe zählt 30% der Gesamtnote.
- Eine Bearbeitung in Gruppen ist nicht erlaubt!
Literatur
- P. Ladefoged (1996). Elements of Acoustic Phonetics. Second edition.
- D. Jurafsky and J. Martin (2009). Speech and Language Processing. Second edition.
- J. N. Holmes and W. J. Holmes (2001). Speech Synthesis and Recognition.