Having trouble viewing this page?
Tutorial Latent Semantic Indexing
Wie funktioniert LSI?
- Wortliste erstellen
- Stoppwörter entfernen
In jedem Dokument entfernen wir Wörter aus der Stoppwortliste und Wörter, die in jedem Dokument oder nur in einem Dokument vorkommen. Es bleiben nur die Inhaltswörter, die wir dann verwenden wollen, um unsere Matrizen zu erzeugen.
- Term-Dokument-Matrix (TDM) füllen
Terme und Dokumente werden in eine Matrix geschrieben, damit Dokumente, die semantisch ähnlich sind, zusammengelegt werden können.