Forschungs-Highlights

VALSE 💃: Benchmark for Vision and Language Models Centered on Linguistic Phenomena

Kurzfassung (mehr lesen ...)

Das Video (Englisch) zeigt unsere Forschung im Bereich des multimodalen Lernens, also des Lernens aus Daten unterschiedlicher Art, wie zum Beispiel Bild in Verbindung mit Sprache. Bisherige Forschung hat gezeigt, dass neuronale Netze, die mit Bild und Sprache arbeiten, diese zwei Modalitäten nicht optimal verbinden. Zum Beispiel beantworten die Modelle die Frage “Wie viele Hunde sind im Bild zu sehen?” mit “zwei”, aber nicht weil tatsächlich zwei Hunde im Bild zu sehen sind, sondern weil “zwei” die häufigste Antwort im Beispieldatensatz ist. In unserer Arbeit stellen wir ein Testkorpus zusammen, das gezielt das Bild- und Sprachverständnis von neuronalen Netzen testet, indem es die Netze unterscheiden lässt zwischen Bildern und deren korrekter Beschreibung und zwischen Bildern und einer abgeänderten, inkorrekten Beschreibung. Beispielsweise wird die Beschreibung “Zwei Hunde spielen im Gras.” zu “Drei Hunde spielen im Gras.” oder zu “Zwei Hunde schlafen im Gras.” abgeändert. Dabei testen wir ganz gezielt spezielle linguistische Phänomene. Im obigen Beispiel testen wir, ob die Modelle korrekt zählen können, oder ob sie Aktionen korrekt erkennen und unterscheiden können. Darüber hinaus testen wir andere Phänomene, wie Koreferenz, Existenz, oder wie Objekte sprachlich benannt werden. Die Modelle, die wir getestet haben, liefern bisher nur (mittel)mäßige Ergebnisse für Aktionen und Koreferenz, aber gute Ergebnisse für die Erfassung der Existenz von Objekten und die sprachlich gesteuerte Identifikation bestimmter Objekte.

Explainable Argument Similarity

Kurzfassung (mehr lesen ...)

Das Video (Englisch) zeigt einen Vortrag über unsere Forschung zu Computationeller Argumentation im Projekt ACCEPT. Juri Opitz, Doktorand in der NLP-Gruppe erklärt hier, wie wir Sprachmodelle einsetzen, um die Ähnlichkeit von Paaren von Argumenten zu bestimmen – z.B. wenn wir Argumente in Gruppen sortieren wollen: zu verschiedenen Themen oder Aspekten.

Wir tun dies, indem wir in ein Sprachmodell Paare von Argumenten geben, und für jedes von ihnen eine sprachliche Schlussfolgerung generieren lassen, die wir in den Ähnlichkeitsvergleich einbeziehen. Zur Bestimmung der Bedeutungsähnlichkeit wandeln wir jedes Argument und seine Konklusion in eine Abstract Meaning Representation (AMR) um: AMRs sind Graphstrukturen, die die Bedeutung der Sätze durch Graphen aus i) Konzeptknoten und ii) semantischen Beziehungen zwischen diesen Konzepten repräsentieren. Unsere Hypothese ist, dass wir mit Hilfe der AMR Graphstrukturen die Ähnlichkeit der Argumente und Konklusionen besser messen können, da sie von unterschiedlicher Wortwahl in den Argumenten unabhängiger sind. In den Experimenten können wir zeigen, dass i) die Ähnlichkeit von Argumenten besser vorhergesagt werden kann, wenn wir sie mit Konklusionen ergänzen: da eine Konklusion das Argument oft erweitert, werden damit mögliche feine Unterschiede oder aber Verbindendes deutlicher. Auch können wir ii) mit der von uns entwickelten graphbasierten semantischen Ähnlichkeitsmetrik WWLK genauer herausarbeiten und visualisieren, welche Passagen in Paaren von Argumenten und Konklusionen aufeinander bezogen sind. Was allerdings noch zu verbessern ist, ist die automatische Generierung der Konklusionen. Daran arbeitet aktuell unser Forschungsprojekt ACCEPT.

Navigationssystem mit natürlichsprachiger Wegbeschreibung

Textanalyse: Automatische Zusammenfassung, Timeline Generation und Informational Bias