#twitter-nlp: Maschinelle Sprachverarbeitung für Mikroblog-Text
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%] | CS-CL | 6 LP |
BA-2010[25%] | BS-AC | 4 LP |
NBA[100%|75%] | CS-CL | 6 LP |
NBA[50%|25%] | BS-CL, BS-AC | 4 LP |
Magister | - | - |
Dozenten/-innen | Laura Jehl |
Veranstaltungsart | Proseminar |
Erster Termin | 21.10.2013 |
Zeit und Ort | Mo, 11:15–12:45, INF 325 / SR 7 (SR) |
Commitment-Frist | 02.12.2013 – 17.01.2014 |
Teilnahmevoraussetzungen
Erfolgreiche Teilnahme an ECL. Von Vorteil ist außerdem die Teilnahme an Formale Grundlagen.
Hinweis: Die Veranstaltung ist vorranging als Proseminar gedacht. Falls noch Plätze offen sind, kann die Veranstaltung auch von Studierenden im fortgeschrittenen BA und Master als Hauptseminar belegt werden. Eine detaillierte Festlegung der zu erbringenden Leistungen muss dann in Rücksprache mit der Dozentin erfolgen.
Leistungsnachweis
- Referat (30-40 Min.)
- Aktive und regelmäßige Teilnahme
- Vorweg eingereichte Fragen zum Artikel, der in der Sitzung besprochen wird
- Methodisches Feedback: Wie hat der Referent den Artikel vorgestellt? Was hat er gut gelöst, woran kann er noch arbeiten?
- Kurze Hausarbeit, die sowohl eine eigene Zusammenfassung des Papiers als auch eine eigenen kritische Auseinandersetzung enthält (5 bis allerhöchstens 10 Seiten). Abgabetermin: 30.3.
Inhalt
Sogenannte Mikroblog-Texte, die zum Beispiel über Twitter täglich millionenfach veröffentlicht werden, haben in den letzten Jahren in der computerlinguistischen Forschung viel Aufmerksamkeit erhalten. Allein bei der ACL-Konferenz 2013 beschäftigten sich 14 Publikationen mit Mikroblog-Daten. Kreative Orthographie, grammatische Besonderheiten und weitere sprachliche Charakteristika dieser Daten stellen eine Herausforderung für NLP-Anwendungen dar: Ein Parser, der auf annotierten Zeitungstexten trainiert wurde, wird "Ya ur website suxx bro" [*] kaum korrekt verarbeiten. In diesem Seminar soll es explizit um die Frage gehen, wie man diesen Herausforderungen begegnen kann, und ob sich bestimmte Charakteristika von Mikroblog-Texten sogar für NLP-Anwendungen ausnutzen lassen.
In bisherigen Arbeiten kann man zwei Stoßrichtungen identifizieren (s. Eisenstein, 2013):
- Textnormalisierung: Ähnlich wie bei Rechtschreibkorrektur wird versucht, Mikroblog-Text in Standardtext zu übertragen, mit dem NLP-Werkzeuge (Parser, Part-of-Speech-Tagger, Übersetzungssysteme...) besser umgehen können, zum Beispiel "ur website" in "your website" etc.
- Domänenanpassung: Hier wird umgekehrt versucht, die Werkzeuge so anzupassen, dass sie besser mit Mikroblog-Text umgehen können. Den meisten Arbeiten liegt die Annahme zugrunde, dass es sich bei Mikroblog-Texten um eine "Domäne" in einem sehr weiten Sinn handelt. Anhand einiger linguistischer Arbeiten wollen wir uns mit dieser Annahme kritisch auseinandersetzen
Ziele:
Im Seminar erhalten die Teilnehmer Einblick in ein hochaktuelles Thema in der computerlinguistischen Forschung. Am Ende des Seminars sind die Teilnehmer vertraut mit
- Techniken der Textnormalisierung, die auch auf die Verarbeitung anderer nutzergenerierter Texte sowie Rechtschreibkorrektur oder OCR anwendbar sind.
- Ansätzen zur Domänenanpassung, die überall dort relevant sind, wo NLP-Anwendungen mit neuen Genres, Domänen oder Sprachen konfrontiert sind, für die wenige oder gar keine annotierten Ressourcen zur Verfügung stehen.
Gleichzeitig hat das Seminar auch zum Ziel, Grundtechniken des wissenschaftlichen Arbeitens einzuüben. Dazu gehören die kritische Lektüre und Präsentation wissenschaftlicher Arbeiten, sowie das Verfassen eigener wissenschaftlicher Texte.
[*] Tweet von Sarah Silvermann, zitiert in (Eisenstein, 2013)
Kursübersicht
Seminarplan
Hinweis: Die angegebene Aufteilung ist vorläufig, sollte es zwingende Gründe geben, warum ein Termin nicht möglich ist, dann gebt mir bitte Bescheid. Bei nicht zwingenden Gründen kann das Thema mit einem anderen Kursteilnehmer getauscht werden, solange diese_r dazu bereit ist, und ihr es mit mir absprecht.