Ruprecht-Karls-Universität Heidelberg

Einführung in die Nutzung computerlinguistischer Ressourcen

Kursbeschreibung

DozentNils Reiter
VeranstaltungsartÜbung als Block-Kurs
Zeit31.03. bis 04.04., jeweils 10:00-13:00 und 14:00-17:00
OrtINF 325, CIP-Pool
StudiengangBA (alte und neue PO), Magister
LeistungsbewertungVoraussetzung für das Software-Projekt

Inhalte & Ziele

Der Vorkurs gibt Grundlagen in der Nutzung von Linux-basierten computerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeine Linux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools der Linux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andere Hilfstools der Computerlinguistik. Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert).

Organisation

Der Blockkurs findet zwischen dem 31.03. und 04.04. stattfinden (das ist die letzte Woche der vorlesungsfreien Zeit) und vor- und nachmittags jeweils drei Stunden dauern (10-13 und 14-17 Uhr). Der Kurs beinhaltet Übungen und findet deshalb im CIP-Pool statt.

Zeitplan

BlockThemaLinks, Slides, Kommentare
Montag, 10-13 UhrLinux ISlides
Übung 1 (Terminal-Basics)
Übung 2 (Pipes & co.)
Montag, 14-17 UhrLinux IISlides
Übung 3 (Reguläre Ausdrücke)
Übung 4 (Variablen und Skripte)
Dienstag, 10-13 UhrLinux IIISlides
Übung 5 (Rechte und Encoding)
Dienstag, 14-17 UhrRessourcenSlides
Mittwoch, 10-13 UhrWordNet, APIs, TreeTaggerSlides
Übung 6 (TreeTagger)
Mittwoch, 14-17 UhrNLTKSlides
Übung 7
Donnerstag, 10-13 UhrBritish National Corpus, XML, XSLTSlides
Übung 8 (XSLT)
Donnerstag, 14-17 UhrXLE ISlides
Freitag, 10-13 UhrXLE II und WekaSlides
Übung (Weka)
Freitag, 14-17 UhrWiederholung, Übungen, Fragen

Lösungen zu den Aufgaben

07. April: Lösungen zum ersten Teil der Aufgaben (die restlichen kommen noch nach)

zum Seitenanfang