Parallele Korpora in der Sprachverarbeitung
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%|25%] | BS-CL, BS-AC | 4 LP |
NBA[100%|75%] | CS-CL | 6 LP |
NBA[50%|25%] | BS-CL, BS-AC | 4 LP |
ABA | A13 | 4 LP |
Dozenten/-innen | Sebastian Padó |
Veranstaltungsart | Proseminar |
Veranstaltungsbeginn | 20.10.2010 |
Zeit und Ort | Mi, 11:15–12:45, INF 327 / SR 1 (SR) |
Inhalt
Das Proseminar hat damit ein doppeltes Ziel: sowohl Wissen ueber parallele Korpora als auch Praxis in der Praesentation von Forschungsinhalten zu vermitteln.
Inhaltlich wird die aktuelle Literatur zur Verwendung paralleler Korpora -- sowohl ein- als auch mehrsprachig -- in der maschinellen Sprachverarbeitung. Dabei liegt der Schwerpunkt auf der Induktion linguistischen Wissens; das Thema "Maschinelle Übersetzung" wird (nur) am Rande gestreift. Das Seminar wird um fünf zentrale Aspekte der Verwendung paralleler Korpora herum aufgebaut sein:
- Alinierung: Wie werden Wörter in parallelen Korpora aliniert, d.h. einander zugeordnet?
- Das Wesen von parallelen Korpora: Wie parallel sind die sprachlichen Strukturen wirklich? Wie parallel sind Übersetzungen?
- Induktion von Wissen in der Zielsprache aus annotierten Quellkorpora
- Induktion von Wissen in der Zielsprache aus unannotierten Quellkorpora
- Jenseits von parallelen Korpora: Was tun, wenn es keine parallelen Korpora gibt?
Teilnahmebedingungen
- Aktive und regelmäßige Teilnahme
- Referat (30-40 Min.) und "Gegenreferat" (10 Min.).
Idee: Referatsfolien müssen eine Woche im Voraus abgeliefert werden und dienen einem anderen Teilnehmer als Vorlage für einen kurzen Vortrag, der versucht, den "schwächsten Punkt" der Forschungsarbeit zu identifizieren. - Kurze Hausarbeit (5-10 Seiten)
Vorläufiger Seminarplan
Datum | Sitzung | |
20.10. | Einfühung, Überblick über die Themen | Technisches Überblick über das Themengebiet "parallele Korpora" |
27.10. | Verteilung der Themen; wie lese (und kritisiere) ich ein Papier? | Notizen zum wissenschaftlichen Lesen |
3.11. | Wie halte ich einen Vortrag? | Notizen zur Vorbereitung von Vorträgen |
10.11. | Wie schreibe ich eine Hausarbeit? | Notizen zum Schreiben von wissenschaftlichen Arbeiten |
17.11. | muss leider ausfallen | |
24.11. | Alignment 1 Tobias Kostyra: Melamed Sebastian Pado: Evaluation (Gegenref: Gesa Stupperich) | Folien 1 Folien 2 |
1.12. | Alignment 2 (Pado: Statistische Alinierungsverfahren) | Notizen zu automatischer Alinierung |
8.12. | Übersetzung/ Parallelismus Hans-Martin Ramsl: Syntax (Hwa et al., Gegenref: Thomas Bögel) Philipp Busch: Semantik (Cyrus, Pado + Erk, Gegenref: Britta Zeller) | |
15.12. | Nichtparallele Korpora Gesa Stupperich: Wörterbücher (Rapp, Fung und Cheung, Gegenref: H.-M. Ramsl) Britta Zeller: Selektionspräferenzen (Peirsman & Pado, Gegenref: Amol Phadke) | |
12.1. | Annotationprojektion Amol Phadke: Semantische Rollen (Pado und Lapata, Gegenref: Tobias Kostyra) Thomas Bögel: Zeitinformation (Spreyer & Frank, Gegenref: Philipp Busch) | |
19.1. | Oberflächenmerkmalsprojektion (Pado) | |
26.1. | Abschlußsitzung |