Parallele und vergleichbare Korpora für NLP
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%] | BS-CL | 6 LP |
BA-2010[25%] | BS-AC | 4 LP |
NBA[100%|75%] | CS-CL | 6 LP |
NBA[50%|25%] | BS-CL, BS-AC | 4 LP |
Magister | - | - |
Dozenten/-innen | Anette Frank, Éva Mújdricza-Maydt (Übung), Tri-Duc Nghiem (Übung) |
Veranstaltungsart | Proseminar/Übung |
Erster Termin | 24.04.2014 |
Zeit und Ort | Do, 14:15–15:45, INF 325 / SR 23 (SR) (Seminar) |
Mi, 11:15–12:45, INF 325 / PCPool (SR) (Übung) |
|
Commitment-Frist | 16.06.–13.07.2014 |
Teilnahmevoraussetzungen
Programmieren I und II, Mathematische Grundlagen
Anmeldung per Email an frankcl.uni-heidelberg.de bis zum 31.03.2014
Leistungsnachweis
- aktive Teilnahme
- Kurzreferat mit Ausarbeitung (Exzerpt zum Inhalt und der Diskussionen im Seminar)
- Erfolgreiche Umsetzung praktischer Übungsaufgaben
- Abgeschlossenes Programmierprojekt aus Aufgabenstellungen oder schriftliche Ausarbeitung zum Referatsthema
Nach Rücksprache kann das Seminar mit angepassten Leistungsanforderungen als Hauptseminar belegt werden.
Inhalt
Der Einsatz paralleler oder vergleichbarer Korpora stellt eine etablierte und flexible Methode zur Ressourcengewinnung in der Sprachverarbeitung dar.
Mithilfe paralleler (Übersetzungs)Korpora werden durch automatische Wortalignierung bilinguale Lexika oder Paraphrasen induziert. Durch Annotationsprojektion werden statistische Modelle für Part-of-Speech Tagging, Dependenzparsing, Relationserkennung oder Semantic Role Labeling für neue Sprachen induziert. Jedoch sind verfügbare große Übersetzungskorpora oft beschränkt auf bestimmte Sprachpaare, Textsorten oder Domänen (z.B. Parlamentsdebatten, Gesetzestexte).
Bilinguale oder monolinguale Korpora vergleichbaren Inhalts (comparable corpora), wie Nachrichtentexte zu denselben Ereignissen oder Personen, Reviews, etc. eignen sich zur schwach überwachten Induktion von Paraphrasen (z.B. zum Ausdruck von Sentiment, Opinion). Die Erkennung identischer Ereignisse in vergleichbaren Korpora (event coreference resolution) bildet eine Grundlage für Inhaltssuche (Search) und Multi-Document-Summarization.
Das Seminar vermittelt Methodenwissen zum Einsatz paralleler und vergleichbarer Korpora
in der maschinellen Sprachverarbeitung und illustriert eine Anwendung anhand ausgewählter
Beispiele aus der Literatur.
Die erlernten Methoden werden in Implementierungsprojekten erprobt, die einzeln oder
in Kleingruppen durchgeführt werden. Zur Begleitung der Projekte wird eine zweistündige
Übung resp. Tutorium angeboten.