Ruprecht-Karls-Universität Heidelberg
Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Einführung in die Computerlinguistik

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010 ICL 6 LP
NBA ICL 6 LP
Magister - -
Dozenten/-innen Yannick Versley
Veranstaltungsart Vorlesung/Übung
Erster Termin 20.10.2015
Zeit und Ort Di, 14:1515:45, INF 327 / SR 20 (SR)
Fr, 14:1515:45, INF 306 / HS 2 (SR)
Klausurtermin: 12.2.2016, 14:00-16:00h
(erste Woche nach Vorlesungsende)
Commitment-Frist 20.01.2016

Leistungsnachweis

  • Erfolgreiche Bearbeitung der Übungsaufgaben
  • Erfolgreich bestandene Klausur
  • Aktive Teilnahme

Regelmäßige Präsenz ist Voraussetzung für den Scheinerwerb.

Die erfolgreich bestandene Klausur ist Teil der Orientierungsprüfung.

Inhalt

Die Vorlesung führt ein in die Grundlagen, zentralen Fragestellungen und Methoden der Computerlinguistik. In einem Gesamtüberblick werden die wesentlichen Grundlagen der Computerlinguistik eingeführt:

  • Ebenen der Sprachbeschreibung (Phonologie, Morphologie, Syntax, Semantik, Diskurs, Pragmatik),
  • formale mathematische, logische und statistische Modelle zur Beschreibung der entsprechenden linguistischen Phänomene und
  • algorithmische Verfahren zur automatischen Verarbeitung auf Basis dieser Modelle.

Dabei nähern wir uns speziellen Problemen und Fragestellungen der Computerlinguistik und ihren spezifischen Lösungsstrategien. Spezielle Themen werden sein: Ambiguitätsbehandlung, Approximierung sprachlicher Regularitäten, syntaktische und semantische Verarbeitung.

Die Vorlesung gibt einen Überblick über computerlinguistische Anwendungen, diskutiert das Verhältnis zu Nachbardisziplinen, und führt durch praktische Übungen in die speziellen Fragestellungen einzelner Teilgebiete der Computerlinguistik ein.

Kursübersicht

Seminarplan

Datum Sitzung Materialien
20.10.2015
21.10.2015
Einführung Folien
27.10.2015
30.10.2016
Reguläre Ausdrücke und Automaten Folien
Aufgabe 1 (bis 3.11.2015)
davinci.txt
03.11.2015
06.11.2015
Transducer und gewichtete Transducer
Tokenisierung und Edit Distance
Folien (Transducer)
Aufgabe 2 (bis 10.11.2015)
Folien (Edit Distance)
Schiller 2005 (Ergänzung zu WFST)
10.11.2015
13.11.2015
Frequenzen, N-Gramme und Markovmodelle
POS-Tagging
Folien (Ngrams)
Folien (Tagging)
Aufgabe 3 (bis 17.11.2015)
Giesbrecht und Evert 2009 (Ergänzung zu Tagging)
17.11.2015 Syntax / Parsing Folien (Syntax)
Aufgabe 4 (bis 1.12.2015)
20.11.2015 Parsing: Bottom-Up, Top-Down, CYK Folien (CYK)
24.11.2015 Parsing: Baumbankgrammatiken, PCFG Folien (PCFG)
Freiwillige Übung: CFG
27.11.2015 Parsing: Agenda-Parsing Folien (Agenda)
01.12.2015 Unifikationsgrammatiken, Semantik Folien (Unifikation)
Folien (Semantik Intro)
Aufgabe 5
04.12.2015 Semantik-Komposition mit Unifikation, mit Lambda-Termen Folien (Lambda-Kalkül)
Ergänzung:Halvorsen 1983
(Semantik mit Unifikation)
Ergänzung:Handout von Roger Levy
Leseempfehlung: 2.1 und 2.3 in Blackburn und Bos
8.12.2015 Type-Raising für Lambda-Terme Folien (Typen und Type-Raising)
11.12.2015 Lexikalische Semantik Folien (Lexikalische Semantik)
15.12.2015 Word Sense Disambiguation Folien (WSD)
Aufgabe 6 (inkl. Bonusaufgabe) (Abgabe bis spätestens 19.1., anders als angegeben)
18.12.2015 Supertagging und Semantic Role Labeling Folien (SRL)
Ergänzung: Ciaramita und Johnson (2003)
Ergänzung: Gildea und Jurafsky (2002)
08.01.2016 Distributionelle Semantik Folien (Dist.Semantik, Clustering)
12.01.2016 Diskurs: Kohärenz, Koreferenz/Anaphora (Folien)
19.01.2016 Diskurs: Textzusammenfassung, Textsegmentierung (Folien)
optionale Ergänzung: Luhn (1958)
22.01.2016 Parallelkorpora, Machine Translation Folien
26.01.2016 Information Retrieval, Information Extraction, Question Answering Folien
29.01.2016 Klausurvorbereitung Probeklausur
Alle Fazit-Folien
(weitere Unterlagen im Wiki)
02.02.2016 Speech und Dialogsysteme Folien:Speech

Literatur

  • Daniel Jurafsky and James H. Martin (2009): Speech and Language Processing. An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition. Prentice Hall Series in Artificial Intelligence. Prentice Hall. http://www.cs.colorado.edu/~martin/slp2.html
  • Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde, Hagen Langer (Hrsg.) (2004): Computerlinguistik und Sprachtechnologie. Eine Einführung. Heidelberg: Spektrum, Akademischer Verlag. (2. bzw. 3. Auflage)
  • Natural Language Toolkit, NLTK: http://www.nltk.org/book

» weitere Kursmaterialien

» zur Tutoriumsseite

zum Seitenanfang