Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Multiword Expressions

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC 4 LP
BA-2010 AS-CL 8 LP
Master SS-CL, SS-TAC 8 LP
Dozenten/-innen Mark-Christoph Müller
Veranstaltungsart Proseminar / Hauptseminar
Sprache Deutsch
Erster Termin 22.10.2019
Zeit und Ort Dienstag, 16:15-17:45
INF 327 / SR 4
Nachholtermin Di., 11.02. 09:00-16:00
INF 327 / SR 5
Commitment-Frist 21.01.2020

Fachliche Voraussetzungen

Einführung in die Computerlinguistik

Einführung in die Sprachwissenschaft (empfohlen)

Leistungsnachweis

Aktive Teilnahme und Interesse an der Diskussion, Lektüre der jeweils anstehenden Papiere sowie Formulierung von Fragen dazu (vorab per Mail) (30 Prozent der Note)

Vorstellung mind. eines wissenschaftlichen Papiers als Kurzreferat und Übernahme der Diskussionsleitung (40 Prozent der Note)

schriftliche Seminararbeit oder dokumentiertes Programmierprojekt (30 Prozent der Note)

Inhalt

Multiword Expressions (MWE) (dt. 'Mehrwortausdrücke') existieren in jeder natürlichen Sprache. Einige Beispiele für MWEs sind

- Substantive wie 'taxi driver', 'black market', 'white wine', 'day care center' und 'human embryonic stem cell research';

- Verb-Konstruktionen wie 'look up', 'stick out';

- Idiome wie engl. 'kick the bucket' / dt. 'ins Gras beissen'.

In der Linguistik (v.a. in der Semantik) war und ist die Untersuchung von Mehrwortausdrücken ein aktives und wichtiges Teilgebiet. Für die Computerlinguistik sind viele Erkenntnisse der Linguistik aber (noch) irrelevant, da die automatischen Methoden (noch) viel zu grob und ungenau sind. Auf der anderen Seite stellt z.B. korrekte Tokenisierung für die Linguistik kein Problem dar, in der NLP-Praxis ist diese Aufgabe aber -- nicht zuletzt wegen der MWEs -- noch nicht zufriedenstellend gelöst.

Im Seminar werden wir uns mit der automatischen Verarbeitung von (in erster Linie substantivischen) MWEs in Computerlinguistik/NLP befassen. Zunächst geht es um mögliche Definitionen und verwandte Begriffe wie 'Kollokation', 'Idiom', 'Kompositum', etc., sowie um die Klärung grundlegender Konzepte wie 'Kompositionalität'. Dann sollen ausgewählte wissenschaftliche Papiere anhand von Referaten vorgestellt und so unterschiedliche Methoden und Ansätze erarbeitet werden. Der Schwerpunkt liegt dabei auf aktuellen Papieren; wo möglich und sinnvoll, sollen aber auch 'historische' Papiere behandelt werden, um einen Eindruck vom Wandel der computerlinguistischen Methoden zu bekommen (z.B. Regeln vs. maschinelles Lernen, wissensbasiert (WordNet) vs. quantitativ / distributionell (Word Embeddings)).

Einige Themen werden sein:

Extraktion von MWEs aus Korpora;

Bracketing und semantische Analyse von nominalen MWEs (NN-Komposita);

Word Embeddings für MWEs;

Tokenisierung und MWEs;

MWEs ohne Tokenisierung: Zeichen- und N-gram-basierte Vorverarbeitung

Kursübersicht

Achtung Änderung ab dem 26.11.2019!

Seminarplan

Datum Thema Referent Materialien (siehe Literaturliste)
22.10.19 Organisatorisches, ThemenvorstellungMCM Folien
29.10.19 Einführung MCM Sag et al. (2002)
Constant et al. (2017): pp. 837 - 861. Folien
05.11.19 MWE Discovery I Jasikka Pirapakaran;
Jin Huang
Church & Hanks (1990)
Dunning (1993) Folien (PPTX)
12.11.19 MWE Discovery II Ufkun-Bayram Menderes;
Dorian Heide
Smadja (1993): pp. 150 - 166.
Colson (2017) Folien (PPTX)
19.11.19 MWE Discovery III He Mingyang Zhai (1997)
Salehi et al. (2015) Folien (PPTX)
26.11.19 ENTFÄLLT wg. Klimastreikwoche
03.12.19 MWE Identification Kim Müller;
Alexey Ivanov
Katz & Giesbrecht (2006) Folien (PPTX)
Cook et al. (2007) Folien (PPTX)
10.12.19 Noun Compound Bracketing Kalle Bertz;
Rene Boye;
Nikolaus Lenz
Nakov & Hearst (2005)
Pitler et al. (2010)
Barrière (2014) Folien
17.12.19 N-N Compound Analysis I Jakob Schuster;
Eric Kaiser
Nastase & Szpakowicz (2003)
Butnariu & Veale (2008)
07.01.20 N-N Compound Analysis II Ines Pisetta Dima & Hinrichs (2015)
Dima (2016)
14.01.20 N-N Compound Analysis IV Anne-Kathrin Bugert;
Janosch Gehring
Reddy et al. (2011)
Dhar et al. (2019)
21.01.20 MWEs als Input für NLP-Systeme Ines Reinig;
Constantin Pap
Mikolov (2013)
Legrand & Collobert (2016)
Zhao et al. (2017)
28.01.20 MWEs in Anwendungen Livia Zöbeli;
Leon Schmidt
Kim et al. (2018)
Ghoneim & Diab (2013)
Acosta et al. (2011)
04.02.20 AbschlusssitzungAlle

Literatur zum Einstieg

Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger (2002): Multiword Expressions: A Pain in the Neck for NLP. In Proceedings of CICLing 2002. http://lingo.stanford.edu/pubs/WP-2001-03.pdf

Mathieu Constant, Gölsen Eryigit, Johanna Monti, Lonneke van der Plas, Carlos Ramisch, Michael Rosner, and Amalia Todirascu (2017): Multiword Expression Processing: A Survey. Computational Linguistics 43(4). https://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00302

» weitere Kursmaterialien

zum Seitenanfang