Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Lehrveranstaltungen
heiCO
Ressourcen	Fachschaft
Studien-FAQ	Technik-FAQ

Multiword Expressions

Kursbeschreibung

Studiengang	Modulkürzel	Leistungs- bewertung
BA-2010[100%\|75%]	CS-CL	6 LP
BA-2010[50%]	BS-CL	6 LP
BA-2010[25%]	BS-AC	4 LP
BA-2010	AS-CL	8 LP
Master	SS-CL, SS-TAC	8 LP

Dozenten/-innen	Mark-Christoph Müller
Veranstaltungsart	Proseminar / Hauptseminar
Sprache	Deutsch
Erster Termin	22.10.2019
Zeit und Ort	Dienstag, 16:15-17:45 INF 327 / SR 4
Nachholtermin	Di., 11.02. 09:00-16:00 INF 327 / SR 5
Commitment-Frist	21.01.2020

Fachliche Voraussetzungen

Einführung in die Computerlinguistik

Einführung in die Sprachwissenschaft (empfohlen)

Leistungsnachweis

Aktive Teilnahme und Interesse an der Diskussion, Lektüre der jeweils anstehenden Papiere sowie Formulierung von Fragen dazu (vorab per Mail) (30 Prozent der Note)

Vorstellung mind. eines wissenschaftlichen Papiers als Kurzreferat und Übernahme der Diskussionsleitung (40 Prozent der Note)

schriftliche Seminararbeit oder dokumentiertes Programmierprojekt (30 Prozent der Note)

Inhalt

Multiword Expressions (MWE) (dt. 'Mehrwortausdrücke') existieren in jeder natürlichen Sprache. Einige Beispiele für MWEs sind

- Substantive wie 'taxi driver', 'black market', 'white wine', 'day care center' und 'human embryonic stem cell research';

- Verb-Konstruktionen wie 'look up', 'stick out';

- Idiome wie engl. 'kick the bucket' / dt. 'ins Gras beissen'.

In der Linguistik (v.a. in der Semantik) war und ist die Untersuchung von Mehrwortausdrücken ein aktives und wichtiges Teilgebiet. Für die Computerlinguistik sind viele Erkenntnisse der Linguistik aber (noch) irrelevant, da die automatischen Methoden (noch) viel zu grob und ungenau sind. Auf der anderen Seite stellt z.B. korrekte Tokenisierung für die Linguistik kein Problem dar, in der NLP-Praxis ist diese Aufgabe aber -- nicht zuletzt wegen der MWEs -- noch nicht zufriedenstellend gelöst.

Im Seminar werden wir uns mit der automatischen Verarbeitung von (in erster Linie substantivischen) MWEs in Computerlinguistik/NLP befassen. Zunächst geht es um mögliche Definitionen und verwandte Begriffe wie 'Kollokation', 'Idiom', 'Kompositum', etc., sowie um die Klärung grundlegender Konzepte wie 'Kompositionalität'. Dann sollen ausgewählte wissenschaftliche Papiere anhand von Referaten vorgestellt und so unterschiedliche Methoden und Ansätze erarbeitet werden. Der Schwerpunkt liegt dabei auf aktuellen Papieren; wo möglich und sinnvoll, sollen aber auch 'historische' Papiere behandelt werden, um einen Eindruck vom Wandel der computerlinguistischen Methoden zu bekommen (z.B. Regeln vs. maschinelles Lernen, wissensbasiert (WordNet) vs. quantitativ / distributionell (Word Embeddings)).

Einige Themen werden sein:

Extraktion von MWEs aus Korpora;

Bracketing und semantische Analyse von nominalen MWEs (NN-Komposita);

Word Embeddings für MWEs;

Tokenisierung und MWEs;

MWEs ohne Tokenisierung: Zeichen- und N-gram-basierte Vorverarbeitung

Kursübersicht

Achtung Änderung ab dem 26.11.2019!

Seminarplan

Datum	Thema	Referent	Materialien (siehe Literaturliste)
22.10.19	Organisatorisches, Themenvorstellung	MCM	Folien
29.10.19	Einführung	MCM	Sag et al. (2002) Constant et al. (2017): pp. 837 - 861. Folien
05.11.19	MWE Discovery I	Jasikka Pirapakaran; Jin Huang	Church & Hanks (1990) Dunning (1993) Folien (PPTX)
12.11.19	MWE Discovery II	Ufkun-Bayram Menderes; Dorian Heide	Smadja (1993): pp. 150 - 166. Colson (2017) Folien (PPTX)
19.11.19	MWE Discovery III	He Mingyang	Zhai (1997) Salehi et al. (2015) Folien (PPTX)
26.11.19	ENTFÄLLT wg. Klimastreikwoche
03.12.19	MWE Identification	Kim Müller; Alexey Ivanov	Katz & Giesbrecht (2006) Folien (PPTX) Cook et al. (2007) Folien (PPTX)
10.12.19	Noun Compound Bracketing	Kalle Bertz; Rene Boye; Nikolaus Lenz	Nakov & Hearst (2005) Pitler et al. (2010) Barrière (2014) Folien
17.12.19	N-N Compound Analysis I	Jakob Schuster; Eric Kaiser	Nastase & Szpakowicz (2003) Butnariu & Veale (2008)
07.01.20	N-N Compound Analysis II	Ines Pisetta	Dima & Hinrichs (2015) Dima (2016)
14.01.20	N-N Compound Analysis IV	Anne-Kathrin Bugert; Janosch Gehring	Reddy et al. (2011) Dhar et al. (2019)
21.01.20	MWEs als Input für NLP-Systeme	Ines Reinig; Constantin Pap	Mikolov (2013) Legrand & Collobert (2016) Zhao et al. (2017)
28.01.20	MWEs in Anwendungen	Livia Zöbeli; Leon Schmidt	Kim et al. (2018) Ghoneim & Diab (2013) Acosta et al. (2011)
04.02.20	Abschlusssitzung	Alle

Literatur zum Einstieg

Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger (2002): Multiword Expressions: A Pain in the Neck for NLP. In Proceedings of CICLing 2002. http://lingo.stanford.edu/pubs/WP-2001-03.pdf

Mathieu Constant, Gölsen Eryigit, Johanna Monti, Lonneke van der Plas, Carlos Ramisch, Michael Rosner, and Amalia Todirascu (2017): Multiword Expression Processing: A Survey. Computational Linguistics 43(4). https://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00302