Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Bayesian Methods in Natural Language Processing

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010 AS-CL 8 LP
NBA AS-CL 8 LP
Master SS-CL, SS-TAC 8 LP
Magister - -
Dozenten/-innen Sebastian Pado, Stefan Riezler
Veranstaltungsart Hauptseminar
Erster Termin 23.10.2012
Zeit und Ort Di, 16:1517:45, INF 306 / SR 19 (SR)
Commitment-Frist 6. Dezember 30. Januar

Teilnahmevoraussetzungen

Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra, z.B. aus Mathematischem Grundkurs oder Statistical Methods.

Leistungsnachweis

  • Aktive und regelmäßige Teilnahme
  • Wöchentliches vorbereitendes Lesen der Papiere
  • Referat inklusive Vorbereitung von Diskussionsfragen
  • Hausarbeit bzw. Implementation (nach verpflichtender Absprache)

Inhalt

Das Seminar beginnt mit zwei einführenden Veranstaltungen, in denen die Grundlagen Bayesscher Modellierung in der Sprachverarbeitung gemeinsam erarbeitet werden, sowohl bezüglich der zugrundelegenden Konzepte (Stichwort: Ockham's Razor) als auch der Methoden (Stichwort: Gibbs Sampling). Der Rest des Seminars besteht in studentischen Vorträgen zu aktuellen Arbeiten in der Anwendung Bayesscher Methoden auf Sprachverarbeitungsprobleme.

Mögliche Themenbereiche sind:

  • Topic Models
  • Language Models
  • Alignment
  • Decipherment
  • Semantic Grounding

Kursübersicht

Seminarplan

<
Datum Sitzung Referent Folien
23.10Overview Pado / Riezler
30.10.Introduction: Resnik, Hardisty (2010). Gibbs Sampling for the Uninitiated.
Pado Aufschrieb zu Gibbs-Sampling mit Beispiel
6.11.Introduction: Knight (2009). Bayesian Inference with Tears. Riezler
13.11.Language Modeling: Teh (2006). A Bayesian Interpretation of Interpolated Kneser-Ney Schigehiko Schamoni / Huiqin Körkel-Qu Folien
20.11. Topic Modeling: Blei, Ng, Jordan (2003). Latent Dirichlet Allocation.
Further Reading: Bob Carpenter's Notes.
Hintergrund: Griffiths & Steyvers CogSci 2002.
Chen Li / Hans-Martin Ramsl Folien
27.11. Topic Modeling: Mimno, McCallum (2008). Topic Models Conditioned on Arbitrary Features with Dirichlet-multinomial Regression.
Hintergrund: Blei & McAuliffe NIPS 2007
Eleftherios Matios / Annika Berger Folien
4.12. Grounding of Causality: Kemp, Goodman, Tenenbaum (2007). Learning Causal Schemata.
Hintergrund: Goodman et al. CogSci 2007; Griffiths & Tenenbaum Cognitive Psychology 2005.
Lyubov Nakryyko / Christoph Mayer Folien
11.12. POS/Morphology: Johnson (2007). Why doesn't EM find good HMM POS-taggers? Tilmann Wittl / Jonas Placzek Folien
18.12. POS/Morphology: Johnson, Griffiths, Goldwater (2007). Adaptor Grammars.
Hintergrund: Goldwater et al (NIPS 2006, ACL 2006); Goldwater et al. (JML 2011)
Franziska Hartmann
8.1. POS/Morphology: Snyder, Naseem, Eisenstein, Barzilay (2009). Adding More Languages Improves Unsupervised Multilingual Part-of-Speech Tagging: A Bayesian Non-Parametric Approach.
Hintergrund: Naseem et al. JAIR 2009
Andreas Kull / Mareike Hartmann Folien
15.1. Machine Translation: John De Nero, Alexandre Bouchard-Cote, Dan Klein (2008)/ Sampling Alignment Structure under a Bayesian Translation Model. Danny Rehl / Tobias Kostyra Folien
22.1. Machine Translation: Blunsom, Cohn, Dyer, Osborne (2009). A Gibbs Sampler for Phrasal Synchronous Grammar Induction. Carolin Haas / Angela Schneider Folien
29.1. Machine Translation: Dou, Knight (2012). Large Scale Decipherment for Out-of-Domain Machine Translation. Sariya Karimova / Maria Semenchuk Folien
5.2. Wrap-up Pado / Riezler
zum Seitenanfang