Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

NLP-basierte Methoden für Digital Humanities

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010[100%|75%] CS-CL 6 LP
BA-2010[50%] BS-CL 6 LP
BA-2010[25%] BS-AC, BS-FL 4 LP
NBA[100%|75%] CS-CL 6 LP
NBA[50%|25%] BS-CL, BS-AC 4 LP
Magister - -
Dozenten/-innen Anette Frank,
Yannick Versley
Veranstaltungsart Proseminar
Erster Termin 20.10.2014
Zeit und Ort Mo, 16:1517:45, INF 327 / SR 6 (SR)
Commitment-Frist 18.01.2015

Teilnahmevoraussetzungen

Formale Grundlagen; Formale Syntax oder Formale Semantik

Leistungsnachweis

  • regelmäßige Teilnahme
  • aktive Mitarbeit und Lektüre
  • Referat zu Papier oder Projekt
  • Hausarbeit bzw. Programmierprojekt

Inhalt

Digital Humanities (digitale Geisteswissenschaften) sind ein neues und rasch expandierendes Anwendungsgebiet für computerlinguistische Verfahren. Neben traditionellen Verfahren der Computerphilologie und des Information Retrieval wie der Informationsaufbereitung, Suche und Stylometrie kommen vermehrt Verfahren zur automatischen Strukturierung und Analyse großer Datenbestände in den Blick, die durch Verknüpfung von Dokumenten, Personen (Autoren wie Figuren), Bildern oder allgemeineren Inhalten neue Perspektiven für die geistes- und sozialwissenschaftliche Forschung eröffnen.

Im Seminar werden wir Arbeiten aus folgenden Themenbereichen behandeln:

    1. Quantitative Stilistik mit größeren linguistischen Strukturen (Identifikation von Autoren und Genres durch Syntax- und Kohäsionsmerkmale)
    2. Verankerung von Textquellen in Raum, Zeit oder konzeptuellen Räumen (textbasiertes Datieren oder Lokalisieren von Texten, Identifikation temporaler und räumlicher Strukturen innerhalb von Texten)
    3. Extraktion von Netzwerken sozialer Beziehungen aus fiktionalen und reellen Textsammlungen (Netzwerke von Protagonisten in fiktionalen Texten, von Autoren oder Diskussionsteilnehmern in der Sozialwissenschaft und Komponenten wie der Attribution von Meinungen oder Beziehungen zueinander)
    4. Gewinnung von sprachlichen Ressourcen und Extraktion von konzeptuellen Beziehungen (Verarbeitung von Texten anderer Sprachstufen, Culturomics, kritische Diskursanalyse)
    5. Textversionierung und Analyse diachroner Variation in Textvarianten (Stemmatologie, Modellierung von Editions- und Übersetzungsprozessen)

Bei Interesse werden wir praktische Experimente/Projekte zu ausgewählten Methoden und Fragestellungen durchführen.

Das Seminar ist als Proseminar konzipiert, kann aber mit angepassten Leistungsnachweisen auch als Hauptseminar angerechnet werden.

Kursübersicht

Seminarplan

Alle Artikel sollten vom Netz der Uni Heidelberg aus anschaubar sein. Von Zuhause aus können Sie den VPNClient nutzen, um auf die Artikel zuzugreifen.
Datum Thema Vortrag
20.10.

Organisatorisches / Themenübersicht

Hintergrundlektüre:

Kathryn Schulz (2011: The New York Times)
The Mechanic Muse: What is Distant Reading?
(Anm.: Die NY Times ist manchmal der Meinung, man hätte genug Artikel gelesen und solle nun ein Abo kaufen. Der Inkognito-Modus des Browsers hilft in solchen Fällen)

Stephen Marche (2012, LA Review of Books)
Literature is not Data: Against Digital Humanities
(Anm.: Marche kleidet sein Argument, wie es manche Leute tun, stellenweise in sehr viel eloquentes Geschwafel. Er nennt gleichzeitig vier Stellen, an denen Geisteswissenschaften und Digital Humanities Kontakt miteinander haben und kommentiert diese aus einer eher geisteswissenschaftlichen Sicht.)

Muralidharan and Hearst (2012: CHI)
Characterizing the Sensemaking Cycle for Humanities Scholars

Einführung
27.10. thematische Einführung / Vortragsvergabe
Hintergrundlektüre:
Koppel/Schler/Argamon
(2009: J of the Am Soc for Information Science and Technology)
Computational methods in authorship attribution
03.11. Features for Authorship Attribution
Jautze et al. (2013: ACL WS CL for Literature)
From high heels to weed attics: a syntactic investigation of chick lit and literature
Feng/Hirst (2014: Lit Linguist Computing)
Patterns of local coherence as a feature for authorship attribution
Ergänzendes Material: Andrew Ng's Machine Learning auf Coursera
10.11. Stylometry in Social Networks
Schwartz et al. (EMNLP 2013)
Authorship Attribution of Micro-Messages
Burger et al. (EMNLP 2011)
Discriminating Gender on Twitter
Park
17.11. Applications of Stylometry
Ashok et al. (2013: EMNLP)
Success with Style: Using Writing Style to Predict the Success of Novels
Sarawagi et al. (2011: CoNLL)
Gender Attribution: Tracing Stylometric Evidence Beyond Topic and Genre
Rudolf
24.11. Emotions in Literature
[SHORT] Nalisnick, Baird (2013:ACL)
Character-to-Character Sentiment Analysis in Shakespeare's Plays
[SHORT] Saif Mohammad (2012:Decision Support Systems)
From once upon a time to happily ever after
Kühling
01.12. Social Networks in Communication
Agarwal et al. (2012: Workshop on Computational Linguistics for Literature)
Social Network Analysis of Alice in Wonderland
Tyler et al. (2005: The Information Society)
Email as Spectroscopy: Automated Discovery of Community Structure within Organizations
Als Hintergrund zu Zusammenhang und Zentralität in Graphen: Navigli und Lapata
Feldhus
08.12. Narrative Schemas: Global view
Finlayson (2009: New Frontiers in Analogy Research)
Deriving Narrative Morphologies via Analogical Story Merging
McIntyre, Lapata (2010: ACL)
Plot Induction and Evolutionary Story Search for Story Generation
Steen
15.12. Narrative Schemas: Protagonist view
Elsner (2012: EACL)
Character-based Kernels for Novelistic Plot Structure
[RESERVE] Chambers/Jurafsky (2009: ACL)
Unsupervised Learning of Narrative Schemas and their Participants
Baumann
12.01. Diachronic views on Language
Kumar et al. (2012: unpublished)
Dating Texts without Explicit Temporal Cues
Bamman/Crane (2011: JCDL)
Measuring Historical Word Sense Variation
Gholipour
19.01. Citations and Text reuse
Smith et al. (2013: IEEE Conf Big Data)
Infectious Texts: Modeling Text Reuse in Nineteenth-Century Newspapers
Bethard/Jurafsky (2010: CIKM)
Who should I Cite? Learning Literature Search Models from Citation Behavior
Mänz
26.01. vormals: Views on Text Versioning
Baydin/Mantaras/Ontanon (2014): A semantic network-based evolutionary algorithm for computational creativity
Haider
02.02. Zusammenfassung / Abschluss

Literatur

  • Jautze et al. (2013): From high heels to weed attics: a syntactic investigation of chick lit and literature. Proceedings of the Second Workshop on Computational Linguistics for Literature at ACL 2013.
  • W. Feng und G.Hirst (2014): Patterns of local coherence as a feature for authorship attribution. Literary and Linguistic Computing 29(2), 191-198.
  • M. van de Camp und A. van den Bosch (2011): A Link to the Past: Constructing Historical Social Networks. Proceedings of the 2nd Workshop on Computational Approaches to Subjectivity and Sentiment Analysis (WASSA 2011)
  • T. Andrews und C. Macé (2013): Beyond the tree of texts: Building an empirical model of scribal variation through graph analysis of texts and stemmata. Literary and Linguistic Computing 28(4), 504 - 521.
  • K. Radinsky, E. Agichtein, E. Gabrilovich, S. Markovitch (2011): A Word at a Time: Computing Word Relatedness using Temporal Semantic Analysis . World Wide Web Conference 2011.

Weitere Literatur wird zu Beginn des Seminars bereitgestellt.

» weitere Kursmaterialien

zum Seitenanfang