Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Lehrveranstaltungen
heiCO
Ressourcen	Fachschaft
Studien-FAQ	Technik-FAQ

Multimodale Semantik

Kursbeschreibung

Studiengang	Modulkürzel	Leistungs- bewertung
BA-2010	AS-CL	8 LP
NBA	AS-CL	8 LP
Master	SS-CL, SS-TAC	8 LP
Magister	-	-

Dozenten/-innen	Yannick Versley
Veranstaltungsart	Hauptseminar
Erster Termin	23.04.2014
Zeit und Ort	Mi, 14:15–15:45, INF 325 / SR 23 (SR)
Commitment-Frist	16.06.–13.07.2014

Teilnahmevoraussetzungen

Grundlagen der Wahrscheinlichkeitstheorie und Linearen Algebra (z.B. aus Statistical Methods)

Leistungsnachweis

Aktive Teilnahme an den Diskussionen
Referat und schriftliche Ausarbeitung

Inhalt

Modelle der Wortbedeutung beruhten bis vor wenigen Jahren ausschließlich auf großen Textkorpora sowie auf manuell erstellten Ontologien. Aus kognitiver Sicht wie auch aus Anwendungssicht ist es plausibel, auch sprachexterne Faktoren - insbesondere die Wahrnehmung von Farbe, Form und Gestalt bei Bildern - in Modelle der Wortbedeutung miteinzubeziehen.

Ziel des Seminars ist es, ein grundlegendes Verständnis von Informationen in anderen Modalitäten und deren Verarbeitung zu entwickeln sowie einen Überblick über aktuelle Ansätze zu bekommen, die mehrere Modalitäten (etwa Bild und Text) miteinander in Bezug setzen.

Als optionale Vorbereitung für das Seminar seien das ACL-Tutorial Visual Features for Linguists (das sich z.T. mit dem Überblick zum Seminar überlappt), oder die ersten beiden Abschnitte aus Multimodal Distributional Semantics (Bruni et al., JAIR) empfohlen.

Kursübersicht

Seminarplan

Datum	Sitzung	Vortragende/r, Materialien
23.04.2014	Einführung: Multimediale Inhalte, Grounded Cognition	Yannick Versley (Folien)
30.04.2014	Featureextraktion aus Bildern / Referatevergabe	Yannick Versley (Folien)
07.05.2014	Ressourcen I: Bildkorpora	Jani Takhsha (Deng et al., 2009) Endres et al., 2010
14.05.2014	Visual Words I	Mira Heilmann (Leong und Mihalcea 2011a, 2011b)
21.05.2014	Visual Words II	Carolin Günzel (Bergsma und Van Durme, 2011)
28.05.2014	Attribute I / Ressourcen II: Eigenschaftsnormen	Yannick Versley McRae et al., 2005 Kremer und Baroni, 2011 Lenci et al., 2013
04.06.2014	Attribute I	Chen Li (Bergsma und Goebel, 2011) Katharina Sowa (Bruni et al., 2012)
11.06.2014	Attribute II	Zoia Bylinovich (Farhadi et al., 2009)
18.06.2014	Attribute III	Isabell Wolter (Lampert et al., 2014) Madeline Remse (Russakovsky und Fei Fei, 2010)
25.06.2014	Topic Models	Andrews et al., 2009 Bastow Barnard et al., 2003
02.07.2014	Attribute IV	Erwin Glockner (Silberer et al., 2013)
09.07.2014	Bildbeschreibung I	Devon Fritz (Deschacht und Moens 2007) Kulkarni et al., 2011
16.07.2014	Bildbeschreibung II	Robert Kühl (Young et al., 2014)
23.07.2014	Bildbeschreibung III / Implementationsprojekt	Roman Hable (Kuznetsova et al., 2013) Hinweise zum Schluss

Optionale Themen

Video und Sprache (Eisenstein et al., 2007 zu Gestik, Regneri et al., 2013 zu Handlungssequenzen, Charfuelan et al., 2012 zu Emotionen und Sprache)

Literatur

Mehr Literatur gibt es auf der Materialseite

Auswahl:

Eisenstein et al. (2007). Turning Lectures into Comic Books using Linguistically Salient Gestures.
Bergsma & Van Durme (2011). Learning Bilingual Lexicons using the Visual Similarity of Labeled Web Images.
Bruni et al. (2012). Distributional Semantics in Technicolor.