Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Parallele Korpora in der Sprachverarbeitung

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%|25%] BS-CL, BS-AC 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
ABA A13 4 LP
Dozenten/-innen Sebastian Padó
Veranstaltungsart Proseminar
Veranstaltungsbeginn 20.10.2010
Zeit und Ort Mi, 11:1512:45, INF 327 / SR 1 (SR)

Inhalt

Das Proseminar hat damit ein doppeltes Ziel: sowohl Wissen ueber parallele Korpora als auch Praxis in der Praesentation von Forschungsinhalten zu vermitteln.

Inhaltlich wird die aktuelle Literatur zur Verwendung paralleler Korpora -- sowohl ein- als auch mehrsprachig -- in der maschinellen Sprachverarbeitung. Dabei liegt der Schwerpunkt auf der Induktion linguistischen Wissens; das Thema "Maschinelle Übersetzung" wird (nur) am Rande gestreift. Das Seminar wird um fünf zentrale Aspekte der Verwendung paralleler Korpora herum aufgebaut sein:

  • Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einander zugeordnet?
  • Das Wesen von parallelen Korpora: Wie parallel sind die sprachlichen Strukturen wirklich? Wie parallel sind Übersetzungen?
  • Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora
  • Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora
  • Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?

Teilnahmebedingungen

  • Aktive und regelmäßige Teilnahme
  • Referat (30-40 Min.) und "Gegenreferat" (10 Min.).
    Idee: Referatsfolien müssen eine Woche im Voraus abgeliefert werden und dienen einem anderen Teilnehmer als Vorlage für einen kurzen Vortrag, der versucht, den "schwächsten Punkt" der Forschungsarbeit zu identifizieren.
  • Kurze Hausarbeit (5-10 Seiten)

Vorläufiger Seminarplan

Datum Sitzung
20.10. Einfühung, Überblick über die Themen Technisches
Überblick über das Themengebiet "parallele Korpora"
27.10. Verteilung der Themen; wie lese (und kritisiere) ich ein Papier? Notizen zum wissenschaftlichen Lesen
3.11. Wie halte ich einen Vortrag? Notizen zur Vorbereitung von Vorträgen
10.11. Wie schreibe ich eine Hausarbeit? Notizen zum Schreiben von wissenschaftlichen Arbeiten
17.11. muss leider ausfallen
24.11. Alignment 1
Tobias Kostyra: Melamed
Sebastian Pado: Evaluation (Gegenref: Gesa Stupperich)
Folien 1 Folien 2
1.12. Alignment 2 (Pado: Statistische Alinierungsverfahren) Notizen zu automatischer Alinierung
8.12. Übersetzung/ Parallelismus
Hans-Martin Ramsl: Syntax (Hwa et al., Gegenref: Thomas Bögel) Philipp Busch: Semantik (Cyrus, Pado + Erk, Gegenref: Britta Zeller)
15.12. Nichtparallele Korpora
Gesa Stupperich: Wörterbücher (Rapp, Fung und Cheung, Gegenref: H.-M. Ramsl)
Britta Zeller: Selektionspräferenzen (Peirsman & Pado, Gegenref: Amol Phadke)
12.1. Annotationprojektion
Amol Phadke: Semantische Rollen (Pado und Lapata, Gegenref: Tobias Kostyra)
Thomas Bögel: Zeitinformation (Spreyer & Frank, Gegenref: Philipp Busch)
19.1. Oberflächenmerkmalsprojektion (Pado)
26.1. Abschlußsitzung

» Kursmaterialien

zum Seitenanfang