Multiword Expressions
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%] | BS-CL | 6 LP |
BA-2010[25%] | BS-AC | 4 LP |
BA-2010 | AS-CL | 8 LP |
Master | SS-CL, SS-TAC | 8 LP |
Dozenten/-innen | Mark-Christoph Müller |
Veranstaltungsart | |
Sprache | Deutsch |
Erster Termin | 22.10.2019 |
Zeit und Ort | Dienstag, 16:15-17:45 INF 327 / SR 4 |
Nachholtermin | Di., 11.02. 09:00-16:00 INF 327 / SR 5 |
Commitment-Frist | 21.01.2020 |
Fachliche Voraussetzungen
Einführung in die Computerlinguistik
Einführung in die Sprachwissenschaft (empfohlen)
Leistungsnachweis
Aktive Teilnahme und Interesse an der Diskussion, Lektüre der jeweils anstehenden Papiere sowie Formulierung von Fragen dazu (vorab per Mail) (30 Prozent der Note)
Vorstellung mind. eines wissenschaftlichen Papiers als Kurzreferat und Übernahme der Diskussionsleitung (40 Prozent der Note)
schriftliche Seminararbeit oder dokumentiertes Programmierprojekt (30 Prozent der Note)
Inhalt
Multiword Expressions (MWE) (dt. 'Mehrwortausdrücke') existieren in jeder natürlichen Sprache. Einige Beispiele für MWEs sind
- Substantive wie 'taxi driver', 'black market', 'white wine', 'day care center' und 'human embryonic stem cell research';
- Verb-Konstruktionen wie 'look up', 'stick out';
- Idiome wie engl. 'kick the bucket' / dt. 'ins Gras beissen'.
In der Linguistik (v.a. in der Semantik) war und ist die Untersuchung von Mehrwortausdrücken ein aktives und wichtiges Teilgebiet. Für die Computerlinguistik sind viele Erkenntnisse der Linguistik aber (noch) irrelevant, da die automatischen Methoden (noch) viel zu grob und ungenau sind. Auf der anderen Seite stellt z.B. korrekte Tokenisierung für die Linguistik kein Problem dar, in der NLP-Praxis ist diese Aufgabe aber -- nicht zuletzt wegen der MWEs -- noch nicht zufriedenstellend gelöst.
Im Seminar werden wir uns mit der automatischen Verarbeitung von (in erster Linie substantivischen) MWEs in Computerlinguistik/NLP befassen. Zunächst geht es um mögliche Definitionen und verwandte Begriffe wie 'Kollokation', 'Idiom', 'Kompositum', etc., sowie um die Klärung grundlegender Konzepte wie 'Kompositionalität'. Dann sollen ausgewählte wissenschaftliche Papiere anhand von Referaten vorgestellt und so unterschiedliche Methoden und Ansätze erarbeitet werden. Der Schwerpunkt liegt dabei auf aktuellen Papieren; wo möglich und sinnvoll, sollen aber auch 'historische' Papiere behandelt werden, um einen Eindruck vom Wandel der computerlinguistischen Methoden zu bekommen (z.B. Regeln vs. maschinelles Lernen, wissensbasiert (WordNet) vs. quantitativ / distributionell (Word Embeddings)).
Einige Themen werden sein:
Extraktion von MWEs aus Korpora;
Bracketing und semantische Analyse von nominalen MWEs (NN-Komposita);
Word Embeddings für MWEs;
Tokenisierung und MWEs;
MWEs ohne Tokenisierung: Zeichen- und N-gram-basierte Vorverarbeitung
Kursübersicht
Achtung Änderung ab dem 26.11.2019!
Seminarplan
Datum | Thema | Referent | Materialien (siehe Literaturliste) |
22.10.19 | Organisatorisches, Themenvorstellung | MCM | Folien |
29.10.19 | Einführung | MCM | Sag et al. (2002)Constant et al. (2017): pp. 837 - 861. Folien |
05.11.19 | MWE Discovery I | Jasikka Pirapakaran;Jin Huang | Church & Hanks (1990)Dunning (1993) Folien (PPTX) |
12.11.19 | MWE Discovery II | Ufkun-Bayram Menderes;Dorian Heide | Smadja (1993): pp. 150 - 166.Colson (2017) Folien (PPTX) |
19.11.19 | MWE Discovery III | He Mingyang | Zhai (1997)Salehi et al. (2015) Folien (PPTX) |
26.11.19 | ENTFÄLLT wg. Klimastreikwoche | ||
03.12.19 | MWE Identification | Kim Müller;Alexey Ivanov | Katz & Giesbrecht (2006) Folien (PPTX)Cook et al. (2007) Folien (PPTX) |
10.12.19 | Noun Compound Bracketing | ||
17.12.19 | N-N Compound Analysis I | Jakob Schuster;Eric Kaiser | Nastase & Szpakowicz (2003)Butnariu & Veale (2008) |
07.01.20 | N-N Compound Analysis II | Ines Pisetta | Dima & Hinrichs (2015)Dima (2016) |
14.01.20 | N-N Compound Analysis IV | Anne-Kathrin Bugert;Janosch Gehring | Reddy et al. (2011)Dhar et al. (2019) |
21.01.20 | MWEs als Input für NLP-Systeme | Ines Reinig;Constantin Pap | Mikolov (2013)Legrand & Collobert (2016)Zhao et al. (2017) |
28.01.20 | MWEs in Anwendungen | Livia Zöbeli;Leon Schmidt | Kim et al. (2018)Ghoneim & Diab (2013)Acosta et al. (2011) |
04.02.20 | Abschlusssitzung | Alle |
Literatur zum Einstieg
Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger (2002): Multiword Expressions: A Pain in the Neck for NLP. In Proceedings of CICLing 2002. http://lingo.stanford.edu/pubs/WP-2001-03.pdf
Mathieu Constant, Gölsen Eryigit, Johanna Monti, Lonneke van der Plas, Carlos Ramisch, Michael Rosner, and Amalia Todirascu (2017): Multiword Expression Processing: A Survey. Computational Linguistics 43(4). https://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00302