Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Lehrveranstaltungen
heiCO
Ressourcen	Fachschaft
Studien-FAQ	Technik-FAQ

Wissensextraktion aus Wikipedia

Kursbeschreibung

Studiengang	Modulkürzel	Leistungs- bewertung
BA-2010	AS-CL	8 LP
NBA	AS-CL	8 LP
ABA	V01	6 LP
Master	SS-CL, SS-TAC	8 LP
Magister	-	-

Dozenten/-innen	Michael Strube
Veranstaltungsart	Hauptseminar
Erster Termin	14.04.2011
Zeit und Ort	Do, 16:15–17:45, INF 325 / SR 24 (SR)

Teilnahmevoraussetzungen

Keine

Leistungsnachweis

aktive Teilnahme
Vortrag/Präsentation
Seminar- oder Hausarbeit

Inhalt

Die Online-Enzyklopädie Wikipedia kann in der Computerlinguistik als Ressource von Wissen dienen, das für das Sprachverstehen notwendig ist. Dabei wird nicht nur Text aus der Enzyklopädie in Weltwissen umgewandelt. Wikipedia dient auch als Quelle von Wissen für eine Vielzahl computerlinguistischer Aufgaben: Tokenisierung, Rechtschreibkorrektur, Eigennamenerkennung, Konzeptdisambiguierung, automatische Zusammenfassung, das Erkennen linguistischer Hecken, usw. Im Seminar sollen zunächst die besonderen Eigenschaften von Wikipedia eingeführt werden, die Wissensextraktion ermöglichen. Dann wird auf die technischen Grundlagen eingegangen werden, um Wikipedia der computerlinguistischen Verarbeitung zugänglich zu machen. Der Hauptteil des Seminars wird wissenschaftlichen Arbeiten gewidmet, die Weltwissen und linguistisches Wissen aus Wikipedia extrahieren. Abschließend soll diskutiert werden, wie diese Verfahren auch auf andere kollaborativ erzeugte Enzyklopädien, Nachrichtensammlungen, Lexika und Wikis angewendet werden können.

Kursübersicht

Seminarplan, 18.07.2011 (PDF)

Literatur

Medelyan, Olena et al. (2009). Mining meaning from
Wikipedia. International Journal of Human-Computer Studies, 67 (9),
pp. 716-754.