Ruprecht-Karls-Universität Heidelberg
Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Wissensextraktion aus Wikipedia

Kursbeschreibung

Studiengang Modulkürzel Leistungs-
bewertung
BA-2010 AS-CL 8 LP
NBA AS-CL 8 LP
ABA V01 6 LP
Master SS-CL, SS-TAC 8 LP
Magister - -
Dozenten/-innen Michael Strube
Veranstaltungsart Hauptseminar
Erster Termin 14.04.2011
Zeit und Ort Do, 16:1517:45, INF 325 / SR 24 (SR)

Teilnahmevoraussetzungen

Keine

Leistungsnachweis

  • aktive Teilnahme
  • Vortrag/Präsentation
  • Seminar- oder Hausarbeit

Inhalt

Die Online-Enzyklopädie Wikipedia kann in der Computerlinguistik als Ressource von Wissen dienen, das für das Sprachverstehen notwendig ist. Dabei wird nicht nur Text aus der Enzyklopädie in Weltwissen umgewandelt. Wikipedia dient auch als Quelle von Wissen für eine Vielzahl computerlinguistischer Aufgaben: Tokenisierung, Rechtschreibkorrektur, Eigennamenerkennung, Konzeptdisambiguierung, automatische Zusammenfassung, das Erkennen linguistischer Hecken, usw. Im Seminar sollen zunächst die besonderen Eigenschaften von Wikipedia eingeführt werden, die Wissensextraktion ermöglichen. Dann wird auf die technischen Grundlagen eingegangen werden, um Wikipedia der computerlinguistischen Verarbeitung zugänglich zu machen. Der Hauptteil des Seminars wird wissenschaftlichen Arbeiten gewidmet, die Weltwissen und linguistisches Wissen aus Wikipedia extrahieren. Abschließend soll diskutiert werden, wie diese Verfahren auch auf andere kollaborativ erzeugte Enzyklopädien, Nachrichtensammlungen, Lexika und Wikis angewendet werden können.

Kursübersicht

Seminarplan, 18.07.2011 (PDF)

Literatur

  • Medelyan, Olena et al. (2009). Mining meaning from
    Wikipedia. International Journal of Human-Computer Studies, 67 (9),
    pp. 716-754.

» weitere Kursmaterialien

zum Seitenanfang