Acronym Decomposer

Programmier-Gesellstück

Branimira Nikolova
braniad@yahoo.com
SS 2006
Seminar für Computerlinguisitk
Universität Heidelberg

Abstract

Akronyme repräsentieren eine universelle systematische Art von Abkürzungen. Sie sind ein sehr produktives Teil des Lexikons in jeder modernen Sprache. Ein großes Teil der Akronyme stehen für Eigennamen vor allem für Organisations- und Produktnamen. Deswegen kann die automatische Erkennung und Auflösung von Akronyme als ein Teilgebiet der Eigennamenerkennung betrachtet werden. Ein automatisches System zur Auflösung von Akronyme hat als Aufgabe die Ausdrücke zu erkennen, die die Bedeutung von Akronymen im Text einführen. Viele Akronyme werden gebildet indem die erste Buchstabe von jeden Wort in der Definition einer Buchstabe in dem Akronym entspricht. Das ist aber kein allgemeingültiges Regel. In vielen Fällen werden Wörter weggelassen oder statt Anfangsbuchstaben werden eine oder mehrere interne Buchstaben genommen. Die immer öfters vorkommende komplexe Bildungsmuster wie bei 3M oder W3C machen die Aufgabe noch schwieriger.

Beispiele

Testergebnisse

Zum testen wurden 73 Dokumente von Reuters Corpus benutzt, die insgesamt 118 Akronym-Vollform Paare enthalten.
Liste der Akronym-Vollform Paare im Testcorpus
Davon wurden 108 Paare erkannt, 105 davon waren richtig und 3 falsch. Liste der erkannten Akronym-Vollform Paare
10 Paare wurden aus folgenden Gründen nicht erkannt:

Liste der nicht erkannten Akronym-Vollform Paare


Spezifikationsvortrag
Dokumentation
README
INSTALL
Quellcode
Archiv