Institut für Computerlinguistik

Bilder vom Neuenheimer Feld, Heidelberg und der Universität Heidelberg

Title: Spektrum Data for Cross-lingual Summarization

Speaker: Mehwish Fatima (HITS)

Abstract

Cross-lingual summarization is an emerging task for which no cross-lingual scientific resources such as experimental datasets are available. However, the acquisition of high-quality, real-world resources for NLP is a laborious and strenuous process. This talk focuses on the Spektrum dataset, its collection process, and challenges during the process. The collected Spektrum dataset is small in size; therefore, a similar nature dataset is collected from the Wikipedia Science Portal to complement it. Further, this talk presents results of empirical experiments with existing abstractive summarization models. The experimental results suggest the viability and usefulness of the proposed dataset for cross-lingual summarization.