Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Parallele und vergleichbare Korpora für NLP

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
Magister - -
Dozenten/-innen Anette Frank,
Éva Mújdricza-Maydt (Übung),
Tri-Duc Nghiem (Übung)
Veranstaltungsart Proseminar/Übung
Erster Termin 24.04.2014
Zeit und Ort Do, 14:1515:45,
INF 325 / SR 23 (SR) (Seminar)
  Mi, 11:1512:45,
INF 325 / PCPool (SR) (Übung)
Commitment-Frist 16.06.13.07.2014

Teilnahmevoraussetzungen

Programmieren I und II, Mathematische Grundlagen

Anmeldung per Email an frank(at)cl.uni-heidelberg.de bis zum 31.03.2014

Leistungsnachweis

  • aktive Teilnahme
  • Kurzreferat mit Ausarbeitung (Exzerpt zum Inhalt und der Diskussionen im Seminar)
  • Erfolgreiche Umsetzung praktischer Übungsaufgaben
  • Abgeschlossenes Programmierprojekt aus Aufgabenstellungen oder schriftliche Ausarbeitung zum Referatsthema

Nach Rücksprache kann das Seminar mit angepassten Leistungsanforderungen als Hauptseminar belegt werden.

Inhalt

Der Einsatz paralleler oder vergleichbarer Korpora stellt eine etablierte und flexible Methode zur Ressourcengewinnung in der Sprachverarbeitung dar.

Mithilfe paralleler (Übersetzungs)Korpora werden durch automatische Wortalignierung bilinguale Lexika oder Paraphrasen induziert. Durch Annotationsprojektion werden statistische Modelle für Part-of-Speech Tagging, Dependenzparsing, Relationserkennung oder Semantic Role Labeling für neue Sprachen induziert. Jedoch sind verfügbare große Übersetzungskorpora oft beschränkt auf bestimmte Sprachpaare, Textsorten oder Domänen (z.B. Parlamentsdebatten, Gesetzestexte).

Bilinguale oder monolinguale Korpora vergleichbaren Inhalts (comparable corpora), wie Nachrichtentexte zu denselben Ereignissen oder Personen, Reviews, etc. eignen sich zur schwach überwachten Induktion von Paraphrasen (z.B. zum Ausdruck von Sentiment, Opinion). Die Erkennung identischer Ereignisse in vergleichbaren Korpora (event coreference resolution) bildet eine Grundlage für Inhaltssuche (Search) und Multi-Document-Summarization.

Das Seminar vermittelt Methodenwissen zum Einsatz paralleler und vergleichbarer Korpora in der maschinellen Sprachverarbeitung und illustriert eine Anwendung anhand ausgewählter Beispiele aus der Literatur.
Die erlernten Methoden werden in Implementierungsprojekten erprobt, die einzeln oder in Kleingruppen durchgeführt werden. Zur Begleitung der Projekte wird eine zweistündige Übung resp. Tutorium angeboten. 

Literatur ist bereitgestellt hier:

» Seminarplan und Kursmaterialien

zum Seitenanfang