Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Multiword Expressions

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC 4 LP
BA-2010 AS-CL 8 LP
Master SS-CL, SS-TAC 8 LP
Dozenten/-innen Mark-Christoph Müller
Veranstaltungsart Proseminar / Hauptseminar
Sprache Deutsch
Erster Termin 22.10.2019
Zeit und Ort Dienstag, 16:15-17:45
INF 327 / SR 4
Commitment-Frist tbd.

Fachliche Voraussetzungen

Einführung in die Computerlinguistik

Einführung in die Sprachwissenschaft (empfohlen)

Leistungsnachweis

Aktive Teilnahme und Interesse an der Diskussion Vorstellung mind. eines wissenschaftlichen Papiers als Kurzreferat,

Übernahme der Diskussionsleitung

Lektüre der jeweils anstehenden Papiere sowie Formulierung von Fragen dazu (vorab per Mail)

schriftliche Seminararbeit oder dokumentiertes Programmierprojekt

Inhalt

Multiword Expressions (MWE) (dt. 'Mehrwortausdrücke') existieren in jeder natürlichen Sprache. Einige Beispiele für MWEs sind

- Substantive wie 'taxi driver', 'black market', 'white wine', 'day care center' und 'human embryonic stem cell   research';

- Verb-Konstruktionen wie 'look up', 'stick out';

- Idiome wie engl. 'kick the bucket' / dt. 'ins Gras beissen'.

In der Linguistik (v.a. in der Semantik) war und ist die Untersuchung von Mehrwortausdrücken ein aktives und wichtiges Teilgebiet. Für die Computerlinguistik sind viele Erkenntnisse der Linguistik aber (noch) irrelevant, da die automatischen Methoden (noch) viel zu grob und ungenau sind. Auf der anderen Seite stellt z.B. korrekte Tokenisierung für die Linguistik kein Problem dar, in der NLP-Praxis ist diese Aufgabe aber -- nicht zuletzt wegen der MWEs -- noch nicht zufriedenstellend gelöst.

Im Seminar werden wir uns mit der automatischen Verarbeitung von (in erster Linie substantivischen) MWEs in Computerlinguistik/NLP befassen. Zunächst geht es um mögliche Definitionen und verwandte Begriffe wie 'Kollokation', 'Idiom', 'Kompositum', etc., sowie um die Klärung grundlegender Konzepte wie 'Kompositionalität'. Dann sollen ausgewählte wissenschaftliche Papiere anhand von Referaten vorgestellt und so unterschiedliche Methoden und Ansätze erarbeitet werden. Der Schwerpunkt liegt dabei auf aktuellen Papieren; wo möglich und sinnvoll, sollen aber auch 'historische' Papiere behandelt werden, um einen Eindruck vom Wandel der computerlinguistischen Methoden zu bekommen (z.B. Regeln vs. maschinelles Lernen, wissensbasiert (WordNet) vs. quantitativ / distributionell (Word Embeddings)).

Einige Themen werden sein:

Extraktion von MWEs aus Korpora;

Bracketing und semantische Analyse von nominalen MWEs (NN-Komposita);

Word Embeddings für MWEs; Tokenisierung und MWEs;

MWEs ohne Tokenisierung: Zeichen- und N-gram-basierte Vorverarbeitung

Kursübersicht

Seminarplan

Datum Sitzung Materialien

Literatur

Literatur zum Einstieg:

Ivan A. Sag, Timothy Baldwin, Francis Bond, Ann Copestake, and Dan Flickinger (2002): Multiword Expressions: A Pain in the Neck for NLP. In Proceedings of CICLing 2002. http://lingo.stanford.edu/pubs/WP-2001-03.pdf

Mathieu Constant, Gölsen Eryigit, Johanna Monti, Lonneke van der Plas, Carlos Ramisch, Michael Rosner, and Amalia Todirascu (2017): Multiword Expression Processing: A Survey. Computational Linguistics 43(4). https://www.mitpressjournals.org/doi/pdf/10.1162/COLI_a_00302

Eine vollständige Literaturliste wird zu Beginn des Semesters zur Verfügung gestellt.

» weitere Kursmaterialien

zum Seitenanfang