Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Karl-Steinbuch-Stipendium für HeiNER - the Heidelberg Named Entity Resource

Das Karl-Steinbuch-Stipendium wurde in diesem Jahr unter anderen an eine Gruppe Studierender des Seminars für Computerlinguistik vergeben.

Das Karl-Steinbuch-Stipendium fördert kreative und innovative Projekte mit IT- oder Medienbezug aus allen Fachrichtungen, die Studierende im Hauptstudium neben ihrem Studium durchführen. Die Projekte müssen entweder ein Forschungsziel haben oder einen künstlerischen Wert darstellen. Neben Projekten aus der Informatik und den Medienwissenschaften sind insbesondere interdisziplinäre Ideen gefragt, die die beiden Querschnittsbereiche mit anderen Fachwissenschaften verbinden.

Wolodja Wentland, Johannes Knopp und Carina Silberer haben sich mit ihrem Projekt "HeiNER - the Heidelberg Named Entity Resource" erfolgreich für das Stipendium beworben und erhalten am 04.06.2008 in den Räumen der MFG-Stiftung in Stuttgart die Auszeichnung als Stipendiaten des Karl-Steinbuch-Stipendiums. Das Stipendium ist mit einer finanziellen Förderung zur Durchführung des Projekts verbunden.

Erste Ergebnisse ihrer Forschung präsentieren Wolodja Wentland, Johannes Knopp und Carina Silberer Ende Mai auf der Language and Resources Evaluation Conference, LREC 2008 in Marrakesch, gemeinsam mit Matthias Hartung, der die drei bei ihrem Run gegen die Deadlines, wie auch sonst, mit Rat und Tat unterstützend begleitet hat.

Wir freuen uns über den Erfolg des Teams und erwarten ihren baldigen Besuch und Vortrag im Computerlinguistischen Kolloquium.

HeiNer - the Heidelberg Named Entity Resource

"HeiNER - the Heidelberg Named Entity Resource" ist ein Projekt zur Erstellung einer umfangreichen multilingualen Datenbank für Named Entities - Eigennamen - die anhand einer eigens entwickelten Programmierschnittstelle (API) und durch computerlinguistische Verfahren aus der Online-Enzyklopädie Wikipedia gewonnen werden.

Die Eigennamenerkennung und -disambiguierung ist ein zentrales Problem der maschinellen Sprachverarbeitung. So ist es für computerlinguistische Anwendungen (Übersetzung, Informationsextraktion, etc.) relevant, ob z.B. das Wort Java in folgendem Satz als z.B. Insel oder Programmiersprache interpretiert werden muss: "Ich liebe Java"

HeiNER ermittelt für alle in Wikipedia enthaltenen Eigennamen deren einzelne Lesarten (Insel, Programmiersprache, Modetanz der 20er, Kaffe, ..), sowie eindeutig disambiguierte Vorkommenskontexte für Eigennamen. Für alle in Wikipedia enthaltenen Sprachen gewinnt HeiNER große Trainingsmengen für maschinelle Lernverfahren für die Eigennamenerkennung und -disambiguierung. Die Ressource ist insbesondere für Sprachen von hohem Wert, für die bisher keine oder zu wenig umfangreiche computerlinguistischen Ressourcen erstellt wurden.

HeiNER wird erstmalig für die computerlinguistische Forschung Trainingsmaterial zur Eigennamenerkennung und -disambiguierung in bis zu 253 Sprachen bereitstellen. Bisher wurden im Zuge des Projekts die 16 größten in Wikipedia vertretenen Sprachen verarbeitet. Zudem ermittelt HeiNER, welcher Umfang sprachlich kodierten Wissens in den jeweiligen sprachspezifischen Wikipedias enthalten ist.