Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Lehrveranstaltungen
heiCO
Ressourcen	Fachschaft
Studien-FAQ	Technik-FAQ

Statistical Machine Translation

Kursbeschreibung

Studiengang	Modulkürzel	Leistungs- bewertung
BA-2010	AS-CL	8 LP
NBA	AS-CL	8 LP
Master	SS-CL, SS-TAC	8 LP
Magister	-	-
ÜK	-	4 LP

Dozenten/-innen	Artem Sokolov, Sariya Karimova
Veranstaltungsart	Vorlesung/Übung
Erster Termin	21.04.2015, 14:15, INF 346 / SR 10
Zeit und Ort	Di, 14:15–15:45, INF 346 / SR 10 (SR) (Übung)
	Do, 11:15–12:45, INF 327 / SR 3 (SR) (Vorlesung)
Commitment-Frist	15.07.2015

Ergebnisliste

Liste

Teilnahmevoraussetzungen

Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus Mathematischem Grundkurs oder Statistical Methods.

Sprache

(V) English / (Ü) Deutsch

Leistungsnachweis

Regelmäßige Teilnahme an Vorlesung und Übung
Bearbeitung der Übungsaufgaben
Klausur

Inhalt

Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor. Mögliche Themenbereiche der Vorlesung sind:

Alignment
Wort-basierte Modelle
Phrasen-basierte Modelle
Syntax-basierte Modelle
Dekodierung
Sprachmodelle
Evaluierung

Kursübersicht

The course is based on the Philipp Koehn's book "Statistical Machine Translation" and uses his slide material.
Other sources include different material by Stefan Riezler, Andrew Ng, Michail Schlesinger, Robert Shapire, David McAllester, Stanley Chen, Joshua Goodman, Dor Altshuler, Alex Fraser, Stefan Vogel, Christopher Monz, Francois Yvon, C. Botet, H. Thompson, B. Dorr.
Exercises are partially based on exercises by Laura Jehl and Sascha Fendrich.

Seminarplan

Datum	Vorlesung	Datum	Übung
21.04, Di	V0 - intro (slides)
23.04, Do	V1 (Alignments, Word-based Models, Max. Likelihood Estimation, IBM Model 1, Unsupervised Learning/EM) slides	28.04, Di	Ü1
30.04, Do	V2 (EM Algorithm, Higher Order IBM Models, Reparametrization of IBM Models 1-2) Suppl.: 1 slides	05.05, Di	Ü2
07.05, Do	V3 (Growing alignments heuristics, Phrases for SMT, Phrase extraction) slides	12.05, Di	Ü3
14.05, Do	keine Sitzung -- Himmelfahrt	19.05, Di	Übung (die Aufgaben 3 und 4 vom 3.Übungsblatt)
21.05, Do	V4 (Phrase-based SMT, Log-linear models) slides	26.05, Di	Ü4
28.05, Do	V5 (Language Models, Good-Turing smoothing, Interpolation/Back-off) Suppl.: 1 (sec. 1-2), 2 slides	02.06, Di	Ü5
04.06, Do	keine Sitzung -- Fronleichnam	09.06, Di	keine Übung Aber zu lösen: Ü5' - der Rest vom Ü5
11.06, Do	V6 (Language Models cont., Witten-Bell, Mercer-Jelinek, Kneser-Ney) Suppl.:1 slides	16.06, Di	Ü6
18.06, Do	V7 (Decoding) slides	23.06, Di	Ü7
25.06, Do	V8 (Evaluation, BLEU, TER, Significance tests) Suppl.: 1, 2, 3, textbook by E. Noreen (see below) slides	30.06, Di	Übung (die Aufgaben vom 7.Übungsblatt)
02.07, Do	V9 Tree-Based Models (SCFG, Tree-substitution grammars, Rule extraction, Decoding) slides	07.07, Di	Ü8
09.07, Do	V10 Tree-Based Models (Storing rules, CKY & Earley algorithms, Cube pruning) slides	14.07, Di	Ü9
16.07, Do	V11 Tuning (Mininum Error Rate Training, slides only) Suppl.: 1, 2	21.07, Di	Sprechstunde/Beratung
23.07, Do	Klausur um 11:00 in SR3 INF 327

Literatur

Grundlage der Vorlesung ist

Philipp Koehn (2010). "Statistical Machine Translation". Cambridge.
Eric W. Noreen. (1989) Computer Intensive Methods for Testing Hypotheses. An Introduction. Wiley, New York.