Ruprecht-Karls-Universität Heidelberg
Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

#twitter-nlp: Maschinelle Sprachverarbeitung für Mikroblog-Text

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] CS-CL 6 LP
BA-2010[25%] BS-AC 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
Magister - -
Dozenten/-innen Laura Jehl
Veranstaltungsart Proseminar
Erster Termin 21.10.2013
Zeit und Ort Mo, 11:1512:45, INF 325 / SR 7 (SR)
Commitment-Frist 02.12.2013 – 17.01.2014

Teilnahmevoraussetzungen

Erfolgreiche Teilnahme an ECL. Von Vorteil ist außerdem die Teilnahme an Formale Grundlagen.

Hinweis: Die Veranstaltung ist vorranging als Proseminar gedacht. Falls noch Plätze offen sind, kann die Veranstaltung auch von Studierenden im fortgeschrittenen BA und Master als Hauptseminar belegt werden. Eine detaillierte Festlegung der zu erbringenden Leistungen muss dann in Rücksprache mit der Dozentin erfolgen.

Leistungsnachweis

  1. Referat (30-40 Min.)
  2. Aktive und regelmäßige Teilnahme
  3. Vorweg eingereichte Fragen zum Artikel, der in der Sitzung besprochen wird
  4. Methodisches Feedback: Wie hat der Referent den Artikel vorgestellt? Was hat er gut gelöst, woran kann er noch arbeiten?
  5. Kurze Hausarbeit, die sowohl eine eigene Zusammenfassung des Papiers als auch eine eigenen kritische Auseinandersetzung enthält (5 bis allerhöchstens 10 Seiten). Abgabetermin: 30.3.

Inhalt

Sogenannte Mikroblog-Texte, die zum Beispiel über Twitter täglich millionenfach veröffentlicht werden, haben in den letzten Jahren in der computerlinguistischen Forschung viel Aufmerksamkeit erhalten. Allein bei der ACL-Konferenz 2013 beschäftigten sich 14 Publikationen mit Mikroblog-Daten. Kreative Orthographie, grammatische Besonderheiten und weitere sprachliche Charakteristika dieser Daten stellen eine Herausforderung für NLP-Anwendungen dar: Ein Parser, der auf annotierten Zeitungstexten trainiert wurde, wird "Ya ur website suxx bro" [*] kaum korrekt verarbeiten. In diesem Seminar soll es explizit um die Frage gehen, wie man diesen Herausforderungen begegnen kann, und ob sich bestimmte Charakteristika von Mikroblog-Texten sogar für NLP-Anwendungen ausnutzen lassen.

In bisherigen Arbeiten kann man zwei Stoßrichtungen identifizieren (s. Eisenstein, 2013):

  1. Textnormalisierung: Ähnlich wie bei Rechtschreibkorrektur wird versucht, Mikroblog-Text in Standardtext zu übertragen, mit dem NLP-Werkzeuge (Parser, Part-of-Speech-Tagger, Übersetzungssysteme...) besser umgehen können, zum Beispiel "ur website" in "your website" etc.
  2. Domänenanpassung: Hier wird umgekehrt versucht, die Werkzeuge so anzupassen, dass sie besser mit Mikroblog-Text umgehen können. Den meisten Arbeiten liegt die Annahme zugrunde, dass es sich bei Mikroblog-Texten um eine "Domäne" in einem sehr weiten Sinn handelt. Anhand einiger linguistischer Arbeiten wollen wir uns mit dieser Annahme kritisch auseinandersetzen

Ziele:

Im Seminar erhalten die Teilnehmer Einblick in ein hochaktuelles Thema in der computerlinguistischen Forschung. Am Ende des Seminars sind die Teilnehmer vertraut mit

  1. Techniken der Textnormalisierung, die auch auf die Verarbeitung anderer nutzergenerierter Texte sowie Rechtschreibkorrektur oder OCR anwendbar sind.
  2. Ansätzen zur Domänenanpassung, die überall dort relevant sind, wo NLP-Anwendungen mit neuen Genres, Domänen oder Sprachen konfrontiert sind, für die wenige oder gar keine annotierten Ressourcen zur Verfügung stehen.

Gleichzeitig hat das Seminar auch zum Ziel, Grundtechniken des wissenschaftlichen Arbeitens einzuüben. Dazu gehören die kritische Lektüre und Präsentation wissenschaftlicher Arbeiten, sowie das Verfassen eigener wissenschaftlicher Texte.

[*] Tweet von Sarah Silvermann, zitiert in (Eisenstein, 2013)

Kursübersicht

Seminarplan

Hinweis: Die angegebene Aufteilung ist vorläufig, sollte es zwingende Gründe geben, warum ein Termin nicht möglich ist, dann gebt mir bitte Bescheid. Bei nicht zwingenden Gründen kann das Thema mit einem anderen Kursteilnehmer getauscht werden, solange diese_r dazu bereit ist, und ihr es mit mir absprecht.

Datum Sitzung Materialien Referent_in Methodik-Feedback
21.10. Einführung, Organisation, Themenübersicht, Methodik: Lesen, Referat Folien: Siehe weitere Kursmaterialien
28.10. Sprachliche Besonderheiten von Mikroblog-Daten Eisenstein(2013). What to do about bad language on the internet. NAACL'13 Ramsl
4.11. Textnormalisierung 1 Kobus et al.(2008). Normalizing SMS: are two metaphores better than one? COLING'08
Aw et al.(2006). A Phrase-based Statistical Model for SMS Text Normalization. COLING'06
Hitschler (Aw et al.), Decker (Kobus et al.) Bacher, Feuchtmüller, Heilmann, Kühling
11.11. Textnormalisierung 2 Liu et al.(2011). Insertion, Deletion, or Substitution? Normalizing Text Messages without Pre-categorization nor Supervision. ACL'11 Nicholas (Liu) Feuchtmüller, Hees, Hitschler, Müller
18.11. Textnormalisierung 3 Han and Baldwin (2011). Lexical Normalisation of Short Text Messages: Makn Sens a #twitter. ACL'11
Gouws et al. (2011). Unsupervised Mining of Lexical Variants from Noisy Text. EMNLP'11
Feuchtmüller (Han and Baldwin), Hees (Gouws) Bischofberger, Kirilin, Nicholas, Starke
25.11. Textnormalisierung 4 Hassan and Menezes (2013). Social Text Normalization using Contextual Graph Random Walks. ACL'13
Yang and Eisenstein (2013). A Log-Linear Model for Unsupervised Text Normalization. EMNLP '13
Bischofberger (Hassan and Menezes), Ramsl (Yang and Eisenstein) Für Hassan & Menezes: Bacher, Nicholas; für Yang & Eisenstein: Feuchtmüller
28.11. Textnormalisierung
Zusatztermin!
13:00-13:45
R. 107, INF 325
Choudhury et al.(2007). Investigating and Modeling the Structure of Texting Language. International Journal on Document Analysis and Recognition Heilmann (Choudhury) Feuchtmüller, Müller
2.12. POS-Tagging Gimpel et al. (2011). Part-of-Speech Tagging for Twitter: Annotation, Features, and Experiments. ACL'11
Owoputi et al. (2013). Improved Part-of-Speech Tagging or Online Conversational Text with Word Clusters. NAACL'13
Bacher (Gimpel), Starke (Owoputi) Baumann, Becker, Decker, Hering
9.12. Named Entity Recognition Finin et al. (2010). Annotating Named Entities in Twitter Data with Crowdsourcing. NAACL Workshop'10
Ritter et al. (2011). Named Entity Recognition in Tweets: An Experimental Study. EMNLP'11
Müller (Finin), Becker (Ritter) Bischofberger, Heilmann, Kühling, Ruder
16.12. Parsing McClosky et al. (2010). Automatic Domain Adaptation for Parsing. NAACL'10
Hering (McClosky) Becker, Ulmer
13.1. Extraktion paralleler Daten aus Mikroblogs Foster et al. (2011). From News to Comment: Resources and Benchmarks for Parsing the Language of Web 2.0. IJCNLP'11 Baumann (Foster) Müller, Sowa
20.1. Sentimentklassifikation für Mikroblogs Brody and Diakopoulos. (2011). Coooooooooooooolllllllllll!!!!!!!!! Using Word Lengthening to Detect Sentiment in Microblogs. EMNLP'11
Volkova et al. (2013). Exploring Sentiment in Social Media: Bootstrapping Subjectivity Clues from Multilingual Twitter Streams. ACL'13
Ulmer (Brody), Sowa (Volkova) Baumann (Brody), Starke (Brody), Decker (Volkova), Ruder (Volkova)
27.1. Anwendungsbeispiel: Katastrophenhilfe und emerging topics Varga et al. (2013). Aid is Out There: Looking for Help from Tweets during a Large Scale Disaster. ACL'13
Cataldi et al. (2010). Emerging Topic Detection on Twitter based on Temporal and Social Terms Evaluation
Kirilin (Varga), Ruder (Cataldi) Müller, Schumann, Sowa, Ulmer
3.2. Wrap-up, Abschlussdiskussion, Methodik: Hausarbeiten Jehl (Ling), Schumann (Baldwin) Hering, Kirilin, Schumann, Hitschler

» weitere Kursmaterialien

zum Seitenanfang