Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Computational approaches to linguistic variation

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-CL 4 LP
BA-2010 AS-CL 8 LP
Master SS-CL, SS-TAC,
SS-FAL
8 LP
Dozenten/-innen Ines Rehbein
Veranstaltungsart PS/HS
Erster Termin 27.10.2016
Zeit und Ort Do, 16:1517:45, INF 326 / SR 27 Achtung, Raumänderung!
Commitment-Frist tbd.

Teilnahmevoraussetzungen

keine besonderen Voraussetzungen

Leistungsnachweis

  • regelmäßige aktive Teilnahme im Seminar
  • Literaturreviews, Methodenvorstellung (5-10 Min.)
  • Projektarbeit

Inhalt

Linguistische Variation in Texten aus unterschiedlichen Domänen/Genres ist nicht nur von einem linguistischen Standpunkt aus interessant, sondern auch von hoher Relevanz für NLP Tools. Werkzeuge, die für eine bestimmte Domäne (meist Zeitungstext) entwickelt wurden, zeigen in der Anwendung auf Texte aus anderen Domänen meist eine deutlich schlechtere Akkuratheit.

Variation zwischen unterschiedlichen Domänen und Genres ist aber nicht die einzige Art von Variation, der wir begegnen. Ebenso können wir zwischen Textproduktionen verschiedener AutorInnen große Unterschiede erkennen, und soziale Variablen wie Alter, Geschlecht, geografische Herkunft, Zugehörigkeit zu einer sozialen Gruppe usw. haben ebenfalls einen Einfluss auf die Sprache. Computational Sociolinguistics beschäftigt sich mit der Identifikation von sozialer Variation in Sprachdaten, und damit, wie sich soziale Faktoren auf unsere Sprache auswirken. Der Anwendungsbereich beinhaltet nicht nur Themen wie Authorship Detection, die Erkennung von Plagiaten oder die Verbesserung von Systemen für die Sentimentanalyse. Die Modellierung sprachlicher Variation ist auch generell nützlich, um die Performanz von NLP tools zu verbessern.

Im Seminar werden wir uns mit neuerer Literatur zum Thema "Variation in der Sprache" auseinandersetzen und Fragen nachgehen wie "Lassen sich Genderunterschiede in der Sprache nachweisen?", "Schreiben ältere Menschen anders als jüngere?", oder "Können wir aus einer Interaktion zwischen zwei Personen herauslesen, wer den höheren sozialen Status hat?". Neben sozialer Variation wird auch stilistische Variation und Variation zwischen Genres ein Thema im Seminar sein.

Kursübersicht

Seminarplan

Datum Sitzung Materialien
27.10. Einführung, Organisatorisches nach der Sitzung: EasyChair-Account anlegen!
Deadline für Bidding: 04.11.
03.11. Genres, registers, text types, domains, ... 23: Biber Redux: Reconsidering Dimensions of Variation in American English
22: Learning a POS tagger for AAVE-like language
10.11. Authorship detection 15: Authorship attribution: What's easy and what's hard?
16: Authorship Attribution of Micro-Messages
17.11. Variation in style 17: Characterizing Stylistic Elements in Syntactic Structure
18: Success with Style: Using Writing Style to Predict the Success of Novels
24.11. Gender and age 3: Why Gender and Age Prediction from Tweets is Hard: Lessons from a Crowdsourcing Experimen
4: Analyzing Biases in Human Perception of User Age and Gender from Text
01.12. Geographical variation 7: Confounds and Consequences in Geotagged Twitter Data
8: Phonological Factors in Social Media Writing
08.12. Geographical variation, social factors 19: Distributed Representations of Geographically Situated Language
20: Discovering Demographic Language Variation
15.12. Semantic variation & language change 1: Freshman or Fresher? Quantifying the Geographic Variation of Language in Online Social Media
6: Temporal Analysis of Language through Neural Language Models
22.12. Projektplanung Deadline für Projektidee: 21.12.
per Mail an rehbein@cl...
(Subject: Projektthema Linguistic Variation)
05.01. Winterferien
12.01. Native language identification
Translationese
14: Native language detection with ‘cheap’ learner corpora
21: Translationese and Its Dialects
Deadline für Projektproposal: 15.01.
Proposal (max. 2 Seiten) per Mail an rehbein@cl...
(Subject: Projektproposal Linguistic Variation)
19.01. Audience design
How community membership shapes language
11: Characterizing the Language of Online Communities and its Relation to Community Reception
13: No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities
26.01. Power and politeness 9: Extracting Social Power Relationships from Natural Language
12: A computational approach to politeness with application to social factors
02.02. Hedging & Framing 10: Hedge Detection as a Lens on Framing in the GMO Debates: A Position Paper
2: Analyzing Discourse Communities with Distributional Semantic Models
09.02. Präsentation der Projektideen, Wrap-up
Deadline für fertige Projekte/Projekt-Kurzpapiere: 31.03.2017,
Submission via EasyChair

Literatur

Nguyen et al. 2016: Computational Sociolinguistics: A Survey. In: Computational Linguistics.

Die zu lesende Literatur finden Sie in EasyChair. Hierfür müssen Sie sich einen Account anlegen.

» weitere Kursmaterialien

zum Seitenanfang