Einführung in die Nutzung computerlinguistischer Ressourcen
Kursbeschreibung
| Dozent | Nils Reiter |
| Veranstaltungsart | Übung als Block-Kurs |
| Zeit | 31.03. bis 04.04., jeweils 10:00-13:00 und 14:00-17:00 |
| Ort | INF 325, CIP-Pool |
| Studiengang | BA (alte und neue PO), Magister |
| Leistungsbewertung | Voraussetzung für das Software-Projekt |
Inhalte & Ziele
Der Vorkurs gibt Grundlagen in der Nutzung von Linux-basierten computerlinguistischen Tools und Korpora. Dabei geht es sowohl um allgemeine Linux-Grundlagen (wie z.B. Ein-/Ausgabeumleitung oder nützliche Tools der Linux-Kommandozeile) als auch um einzelne Parser, Tagger, Chunker und andere Hilfstools der Computerlinguistik. Wir werden uns anschauen, wie bestimmte Tools zu benutzen sind, was man aus ihnen herausbekommt (und was nicht) und wie man solche Ausgaben automatisch weiterverarbeiten kann (und zum Beispiel an das nächste Tool weiterverfüttert).
Organisation
Der Blockkurs findet zwischen dem 31.03. und 04.04. stattfinden (das ist die letzte Woche der vorlesungsfreien Zeit) und vor- und nachmittags jeweils drei Stunden dauern (10-13 und 14-17 Uhr). Der Kurs beinhaltet Übungen und findet deshalb im CIP-Pool statt.
Zeitplan
| Block | Thema | Links, Slides, Kommentare |
|---|---|---|
| Montag, 10-13 Uhr | Linux I | Slides Übung 1 (Terminal-Basics) Übung 2 (Pipes & co.) |
| Montag, 14-17 Uhr | Linux II | Slides Übung 3 (Reguläre Ausdrücke) Übung 4 (Variablen und Skripte) |
| Dienstag, 10-13 Uhr | Linux III | Slides Übung 5 (Rechte und Encoding) |
| Dienstag, 14-17 Uhr | Ressourcen | Slides |
| Mittwoch, 10-13 Uhr | WordNet, APIs, TreeTagger | Slides Übung 6 (TreeTagger) |
| Mittwoch, 14-17 Uhr | NLTK | Slides Übung 7 |
| Donnerstag, 10-13 Uhr | British National Corpus, XML, XSLT | Slides Übung 8 (XSLT) |
| Donnerstag, 14-17 Uhr | XLE I | Slides |
| Freitag, 10-13 Uhr | XLE II und Weka | Slides Übung (Weka) |
| Freitag, 14-17 Uhr | Wiederholung, Übungen, Fragen |
Lösungen zu den Aufgaben
07. April: Lösungen zum ersten Teil der Aufgaben (die restlichen kommen noch nach)

