Raziel Hatzke: Praxisprojekt Seminar – Informationen rund um das Praxisprojekt Seminar im Medieninformatik Bachelor

Präsentation: 28. April 2025, 11:30 Uhr, Raum 3.216
Betreuer
Kooperationspartner: TH Köln
Stichworte: KI, Accessibility, Barrierefreiheit, WCAG, Alternativtexte, Bildbeschreibung, Vergleichsstudie
Bildrechte: Generiert mit ChatGPT

Abstract

Viele wissenschaftliche Publikationen und Lehrmaterialien nutzen komplexe Grafiken wie Domänenmodelle oder Sequenzdiagramme, um Sachverhalte anschaulich darzustellen. Doch häufig fehlen Alternativtexte für diese Bilder — ein Problem für Nutzer:innen von Screen-Readern, denen dadurch wichtige Informationen entgehen.

Ein Grund dafür ist die Herausforderung, solche visuell komplexen Materialien präzise und knapp zu beschreiben — „Ein Bild ist mehr wert als tausend Worte”. Alternativtexte für akademische Inhalte müssen nicht nur detailliert, sondern auch verständlich sein. Ihre Erstellung ist dementsprechend zeitaufwändig.

Large Language Models (LLMs), wie OpenAIs GPT-Serie, bieten hier einen möglichen Lösungsweg: durch ihre Fähigkeit, Bilder zu analysieren und automatisch Textbeschreibungen zu generieren kann die Arbeit von Autor:innen stark beschleunigt und vereinfacht werden. Doch wie gut eignen sich verschiedene LLMs für diese Aufgabe?

In diesem Projekt vergleichen wir fünf LLMs (Claude 3.5, GPT-4V, GPT-4o, Gemini 1.5 und LLaVA OneVision) anhand von den Kriterien Klarheit, Kohärenz, Genauigkeit, Vollständigkeit und Prägnanz. Dafür ließen wir die von den Modellen generierten Alternativtexte von Testleser:innen bewerten. Ziel ist es herauszufinden, welche LLMs sich am besten für die Beschreibung komplexer akademischer Grafiken eignen, hier am Beispeil von UML-Klassendiagrammen, und wo noch Limitationen und Verbesserungsbedarf bestehen.

Die Ergebnisse sollen dazu beitragen, die Barrierefreiheit von Lehrmaterialien und Forschungspublikationen durch effizientere Alternativtext-Generierung zu verbessern.

Weiterführende Themen

Entwicklung einer LaTeX-Erweiterung für KI-gestützte Alternativtext-Erstellung
Untersuchung von KI-generierten Alternativtexten im mehrsprachigen Kontext
Fine-Tuning eines LLMs für die Erstellung von Alternativtexten
Ethische Hinterfragung von KI-generiertem Inhalt in Forschung und Lehre

Vergleichende Evaluation von Large Language Models bei der Generierung von Alternativtexten für visuell komplexes Bildmaterial

Raziel Hatzke

Abstract

Weiterführende Themen