
Computational approaches to linguistic variation
Kursbeschreibung
Studiengang | Modulkürzel | Leistungs- bewertung |
---|---|---|
BA-2010[100%|75%] | CS-CL | 6 LP |
BA-2010[50%] | BS-CL | 6 LP |
BA-2010[25%] | BS-CL | 4 LP |
BA-2010 | AS-CL | 8 LP |
Master | SS-CL, SS-TAC, SS-FAL |
8 LP |
Dozenten/-innen | Ines Rehbein |
Veranstaltungsart | PS/HS |
Erster Termin | 27.10.2016 |
Zeit und Ort | Do, 16:15–17:45, INF 326 / SR 27 Achtung, Raumänderung! |
Commitment-Frist | tbd. |
Teilnahmevoraussetzungen
keine besonderen Voraussetzungen
Leistungsnachweis
- regelmäßige aktive Teilnahme im Seminar
- Literaturreviews, Methodenvorstellung (5-10 Min.)
- Projektarbeit
Inhalt
Linguistische Variation in Texten aus unterschiedlichen Domänen/Genres ist nicht nur von einem linguistischen Standpunkt aus interessant, sondern auch von hoher Relevanz für NLP Tools. Werkzeuge, die für eine bestimmte Domäne (meist Zeitungstext) entwickelt wurden, zeigen in der Anwendung auf Texte aus anderen Domänen meist eine deutlich schlechtere Akkuratheit.
Variation zwischen unterschiedlichen Domänen und Genres ist aber nicht die einzige Art von Variation, der wir begegnen. Ebenso können wir zwischen Textproduktionen verschiedener AutorInnen große Unterschiede erkennen, und soziale Variablen wie Alter, Geschlecht, geografische Herkunft, Zugehörigkeit zu einer sozialen Gruppe usw. haben ebenfalls einen Einfluss auf die Sprache. Computational Sociolinguistics beschäftigt sich mit der Identifikation von sozialer Variation in Sprachdaten, und damit, wie sich soziale Faktoren auf unsere Sprache auswirken. Der Anwendungsbereich beinhaltet nicht nur Themen wie Authorship Detection, die Erkennung von Plagiaten oder die Verbesserung von Systemen für die Sentimentanalyse. Die Modellierung sprachlicher Variation ist auch generell nützlich, um die Performanz von NLP tools zu verbessern.
Im Seminar werden wir uns mit neuerer Literatur zum Thema "Variation in der Sprache" auseinandersetzen und Fragen nachgehen wie "Lassen sich Genderunterschiede in der Sprache nachweisen?", "Schreiben ältere Menschen anders als jüngere?", oder "Können wir aus einer Interaktion zwischen zwei Personen herauslesen, wer den höheren sozialen Status hat?". Neben sozialer Variation wird auch stilistische Variation und Variation zwischen Genres ein Thema im Seminar sein.
Kursübersicht
Seminarplan
Datum | Sitzung | Materialien |
27.10. | Einführung, Organisatorisches | nach der Sitzung: EasyChair-Account anlegen! Deadline für Bidding: 04.11. |
03.11. | Genres, registers, text types, domains, ... | 23: Biber Redux: Reconsidering Dimensions of Variation in American English 22: Learning a POS tagger for AAVE-like language |
10.11. | Authorship detection | 15: Authorship attribution: What's easy and what's hard? 16: Authorship Attribution of Micro-Messages |
17.11. | Variation in style | 17: Characterizing Stylistic Elements in Syntactic Structure 18: Success with Style: Using Writing Style to Predict the Success of Novels |
24.11. | Gender and age | 3: Why Gender and Age Prediction from Tweets is Hard: Lessons from a Crowdsourcing Experimen 4: Analyzing Biases in Human Perception of User Age and Gender from Text |
01.12. | Geographical variation | 7: Confounds and Consequences in Geotagged Twitter Data 8: Phonological Factors in Social Media Writing |
08.12. | Geographical variation, social factors | 19: Distributed Representations of Geographically Situated Language 20: Discovering Demographic Language Variation |
15.12. | Semantic variation & language change | 1: Freshman or Fresher? Quantifying the Geographic Variation of Language in Online Social Media 6: Temporal Analysis of Language through Neural Language Models |
22.12. | Projektplanung | Deadline für Projektidee: 21.12. per Mail an rehbein@cl... (Subject: Projektthema Linguistic Variation) |
05.01. | Winterferien | |
12.01. | Native language identification Translationese |
14: Native language detection with ‘cheap’ learner corpora 21: Translationese and Its Dialects |
Deadline für Projektproposal: 15.01. Proposal (max. 2 Seiten) per Mail an rehbein@cl... (Subject: Projektproposal Linguistic Variation) |
||
19.01. | Audience design How community membership shapes language |
11: Characterizing the Language of Online Communities and its Relation to Community Reception 13: No Country for Old Members: User Lifecycle and Linguistic Change in Online Communities |
26.01. | Power and politeness | 9: Extracting Social Power Relationships from Natural Language 12: A computational approach to politeness with application to social factors |
02.02. | Hedging & Framing | 10: Hedge Detection as a Lens on Framing in the GMO Debates: A Position Paper 2: Analyzing Discourse Communities with Distributional Semantic Models |
09.02. | Präsentation der Projektideen, Wrap-up | |
Deadline für fertige Projekte/Projekt-Kurzpapiere: 31.03.2017, Submission via EasyChair |
Literatur
Nguyen et al. 2016: Computational Sociolinguistics: A Survey. In: Computational Linguistics.
Die zu lesende Literatur finden Sie in EasyChair. Hierfür müssen Sie sich einen Account anlegen.