
Statistical Machine Translation
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010 | AS-CL | 8 LP |
NBA | AS-CL | 8 LP |
Master | SS-CL, SS-TAC | 8 LP |
Magister | - | - |
ÜK | - | 4 LP |
Dozenten/-innen | Artem Sokolov, Sariya Karimova |
Veranstaltungsart | Vorlesung/Übung |
Erster Termin | 21.04.2015, 14:15, INF 346 / SR 10 |
Zeit und Ort | Di, 14:15–15:45, INF 346 / SR 10 (SR) (Übung) |
Do, 11:15–12:45, INF 327 / SR 3 (SR) (Vorlesung) | |
Commitment-Frist | 15.07.2015 |
Ergebnisliste
ListeTeilnahmevoraussetzungen
Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus Mathematischem Grundkurs oder Statistical Methods.
Sprache
(V) English / (Ü) Deutsch
Leistungsnachweis
- Regelmäßige Teilnahme an Vorlesung und Übung
- Bearbeitung der Übungsaufgaben
- Klausur
Inhalt
Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor. Mögliche Themenbereiche der Vorlesung sind:
- Alignment
- Wort-basierte Modelle
- Phrasen-basierte Modelle
- Syntax-basierte Modelle
- Dekodierung
- Sprachmodelle
- Evaluierung
Kursübersicht
The course is based on the Philipp Koehn's book "Statistical Machine Translation" and uses his slide material.Other sources include different material by Stefan Riezler, Andrew Ng, Michail Schlesinger, Robert Shapire, David McAllester, Stanley Chen, Joshua Goodman, Dor Altshuler, Alex Fraser, Stefan Vogel, Christopher Monz, Francois Yvon, C. Botet, H. Thompson, B. Dorr.
Exercises are partially based on exercises by Laura Jehl and Sascha Fendrich.
Seminarplan
Datum | Vorlesung | Datum | Übung |
21.04, Di | V0 - intro (slides) | ||
23.04, Do | V1 (Alignments, Word-based Models, Max. Likelihood Estimation, IBM Model 1, Unsupervised Learning/EM) slides |
28.04, Di | Ü1 |
30.04, Do | V2 (EM Algorithm, Higher Order IBM Models, Reparametrization of IBM Models 1-2) Suppl.: 1 slides |
05.05, Di | Ü2 |
07.05, Do | V3 (Growing alignments heuristics, Phrases for SMT, Phrase extraction) slides |
12.05, Di | Ü3 |
14.05, Do | keine Sitzung -- Himmelfahrt | 19.05, Di | Übung (die Aufgaben 3 und 4 vom 3.Übungsblatt) |
21.05, Do | V4 (Phrase-based SMT, Log-linear models) slides |
26.05, Di | Ü4 |
28.05, Do | V5 (Language Models, Good-Turing smoothing, Interpolation/Back-off) Suppl.: 1 (sec. 1-2), 2 slides |
02.06, Di | Ü5 |
04.06, Do | keine Sitzung -- Fronleichnam | 09.06, Di | keine Übung Aber zu lösen: Ü5' - der Rest vom Ü5 |
11.06, Do | V6 (Language Models cont., Witten-Bell, Mercer-Jelinek, Kneser-Ney) Suppl.:1 slides |
16.06, Di | Ü6 |
18.06, Do | V7 (Decoding) slides |
23.06, Di | Ü7 |
25.06, Do | V8 (Evaluation, BLEU, TER, Significance tests) Suppl.: 1, 2, 3, textbook by E. Noreen (see below) slides |
30.06, Di | Übung (die Aufgaben vom 7.Übungsblatt) |
02.07, Do | V9 Tree-Based Models (SCFG, Tree-substitution grammars, Rule extraction, Decoding) slides |
07.07, Di | Ü8 |
09.07, Do | V10 Tree-Based Models (Storing rules, CKY & Earley algorithms, Cube pruning) slides |
14.07, Di | Ü9 |
16.07, Do | V11 Tuning (Mininum Error Rate Training, slides only) Suppl.: 1, 2 |
21.07, Di | Sprechstunde/Beratung |
23.07, Do | Klausur um 11:00 in SR3 INF 327 |
Literatur
Grundlage der Vorlesung ist
- Philipp Koehn (2010). "Statistical Machine Translation". Cambridge.
- Eric W. Noreen. (1989) Computer Intensive Methods for Testing Hypotheses. An Introduction. Wiley, New York.