Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Statistical Machine Translation

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010 AS-CL 8 LP
NBA AS-CL 8 LP
Master SS-CL, SS-TAC 8 LP
Magister - -
ÜK - 4 LP
Dozenten/-innen Artem Sokolov, Sariya Karimova
Veranstaltungsart Vorlesung/Übung
Erster Termin 21.04.2015, 14:15, INF 346 / SR 10
Zeit und Ort Di, 14:1515:45, INF 346 / SR 10 (SR) (Übung)
  Do, 11:1512:45, INF 327 / SR 3 (SR) (Vorlesung)
Commitment-Frist 15.07.2015

Ergebnisliste

Liste

Teilnahmevoraussetzungen

Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus Mathematischem Grundkurs oder Statistical Methods.

Sprache

(V) English / (Ü) Deutsch

Leistungsnachweis

  • Regelmäßige Teilnahme an Vorlesung und Übung
  • Bearbeitung der Übungsaufgaben
  • Klausur

Inhalt

Die Vorlesung stellt zentrale Konzepte der Statistischen Maschinellen Übersetzung vor. Mögliche Themenbereiche der Vorlesung sind:

  • Alignment
  • Wort-basierte Modelle
  • Phrasen-basierte Modelle
  • Syntax-basierte Modelle
  • Dekodierung
  • Sprachmodelle
  • Evaluierung

Kursübersicht

The course is based on the Philipp Koehn's book "Statistical Machine Translation" and uses his slide material.
Other sources include different material by Stefan Riezler, Andrew Ng, Michail Schlesinger, Robert Shapire, David McAllester, Stanley Chen, Joshua Goodman, Dor Altshuler, Alex Fraser, Stefan Vogel, Christopher Monz, Francois Yvon, C. Botet, H. Thompson, B. Dorr.
Exercises are partially based on exercises by Laura Jehl and Sascha Fendrich.

Seminarplan

Datum Vorlesung Datum Übung
21.04, Di V0 - intro (slides)
23.04, Do V1 (Alignments, Word-based Models, Max. Likelihood Estimation, IBM Model 1, Unsupervised Learning/EM)
slides
28.04, Di Ü1
30.04, Do V2 (EM Algorithm, Higher Order IBM Models, Reparametrization of IBM Models 1-2)
Suppl.: 1
slides
05.05, Di Ü2
07.05, Do V3 (Growing alignments heuristics, Phrases for SMT, Phrase extraction)
slides
12.05, Di Ü3
14.05, Do keine Sitzung -- Himmelfahrt 19.05, Di Übung (die Aufgaben 3 und 4 vom 3.Übungsblatt)
21.05, Do V4 (Phrase-based SMT, Log-linear models)
slides
26.05, Di Ü4
28.05, Do V5 (Language Models, Good-Turing smoothing, Interpolation/Back-off)
Suppl.: 1 (sec. 1-2), 2
slides
02.06, Di Ü5
04.06, Do keine Sitzung -- Fronleichnam 09.06, Di keine Übung Aber zu lösen: Ü5' - der Rest vom Ü5
11.06, Do V6 (Language Models cont., Witten-Bell, Mercer-Jelinek, Kneser-Ney)
Suppl.:1
slides
16.06, Di Ü6
18.06, Do V7 (Decoding)
slides
23.06, Di Ü7
25.06, Do V8 (Evaluation, BLEU, TER, Significance tests)
Suppl.: 1, 2, 3, textbook by E. Noreen (see below)
slides
30.06, Di Übung (die Aufgaben vom 7.Übungsblatt)
02.07, Do V9 Tree-Based Models (SCFG, Tree-substitution grammars, Rule extraction, Decoding)
slides
07.07, Di Ü8
09.07, Do V10 Tree-Based Models (Storing rules, CKY & Earley algorithms, Cube pruning)
slides
14.07, Di Ü9
16.07, Do V11 Tuning (Mininum Error Rate Training, slides only)
Suppl.: 1, 2
21.07, Di Sprechstunde/Beratung
23.07, Do Klausur um 11:00 in SR3 INF 327

Literatur

Grundlage der Vorlesung ist

  • Philipp Koehn (2010). "Statistical Machine Translation". Cambridge.
  • Eric W. Noreen. (1989) Computer Intensive Methods for Testing Hypotheses. An Introduction. Wiley, New York.

» weitere Kursmaterialien

zum Seitenanfang