Stimme+
Studie
Hinzugefügt. Zur Merkliste Lesezeichen setzen

Fast jede zweite Antwort von KI-Chatbots wie ChatGPT enthält Fehler

   | 
Lesezeit  3 Min
audioAnhören
Erfolgreich kopiert!

In einer Studie hat die Europäische Rundfunkunion ChatGPT, CoPilot, Gemini und Perplexity mit Fragen zu Nachrichten gelöchert. Die Ergebnisse: Die KI-Chatbots machen bedenklich viele Fehler.

Einige Menschen nutzen ChatGPT und Co., um sich über Nachrichten zu informieren. Laut einer Studie sind die Antworten der KI-Chatbots in vielen Fällen fehlerhaft.
Einige Menschen nutzen ChatGPT und Co., um sich über Nachrichten zu informieren. Laut einer Studie sind die Antworten der KI-Chatbots in vielen Fällen fehlerhaft.  Foto: Elisa Schu

Wer KI-Chatbots wie ChatGPT, Perplexity oder Gemini nutzt, um sich über Nachrichten zu informieren, sollte vorsichtig sein. Das zeigt eine aktuelle Studie der britischen BBC in Zusammenarbeit mit der Europäischen Rundfunkunion (EBU).

Darin haben die Autoren die gängigsten Chatbots nach aktuellen Nachrichtenthemen befragt. Das Ergebnis: In 45 Prozent der Fälle enthielten die Antworten mindestens einen signifikanten Fehler. Zählt man kleinere Fehler hinzu, waren 81 Prozent der Antworten fehlerhaft.

In der Studie untersucht wurden die KI-Chatbots ChatGPT (OpenAI), Copilot (Microsoft), Gemini (Google) und Perplexity in der Gratis-Version. Die Autoren stellten einfache Fragen zu aktuellen Nachrichten wie: Warum ist Justin Trudeau zurückgetreten? Wer ist der Papst? In wie vielen Ländern wird die Fifa-Fußballweltmeisterschaft stattfinden?

Die Antworten der Chatbots wurden nach fünf Kriterien bewertet, Genauigkeit, Quellenangaben und Kontext. Ebenso wurde untersucht, ob die KI-Chatbots Meinungen oder Bewertungen in ihre Antwort einfließen ließen und ob diese im Quellentext vorkommen. 

Studie zu KI-Chatbots: Keine oder falsche Quellenangaben in vielen Antworten

2709 Antworten lieferten ChatGPT und Co. auf die Kernfragen der Studienautoren und offenbarten dabei eines der Hauptprobleme: In einem Drittel aller Fälle gab es Probleme mit den Quellenangaben. Entweder, weil die KI-Chatbots ihre Aussagen gar nicht durch Quellen belegten oder Aussagen nicht im Ursprungstext vorkamen. Probleme bei der Genauigkeit gab es bei jeder fünften Antwort, in 14 Prozent der Fälle fehlte wichtiger Kontext.

Besonders negativ fiel in der Studie Googles Gemini auf, drei Viertel (76 Prozent) der Antworten waren fehlerhaft. Darauf folgten Microsofts Copilot (37 Prozent fehlerhafte Antworten), ChatGPT (36) und Perplexity (30).

Ein paar Beispiele: Als die Autoren Gemini fragten, ob Elon Musk einen Hitlergruß (englisch „nazi salute“) gezeigt hat, bezieht sich der Chatbot in seiner Antwort auf einen angeblichen Bericht von Radio France - verlinkt tatsächlich aber eine Satiresendung. Ein weiterer Link führt zu einem Artikel der Zeitung „The Telegraph“, der mit dem Thema nichts zu tun hat.

ChatGPT behauptet, Franziskus ist Papst – als dieser längst tot ist

Danach gefragt, wer gerade der Papst ist, antworteten sowohl ChatGPT, Gemini als auch Copilot noch im Mai 2025 mit veralteten Informationen und behaupteten, Papst Franziskus sei das amtierende Oberhaupt der katholischen Kirche – während dieser bereits im April verstorben war und sein Nachfolger, Leo XIV, längst gekürt war. 

Ebenfalls im Mai 2025 behaupteten die Chatbots, der Bundeskanzler hieße noch Olaf Scholz, als dieser längst abgewählt war und sprachen über die Wiederwahl Donald Trumps so, als ob sie noch nicht geschehen wäre.

Falsche, erfundene oder hinzugedichtete Zitate sind häufig

Besonders bei direkten Zitaten aus Quellen schludern die Chatbots. In zwölf Prozent aller Antworten fanden die Studienautoren erhebliche Fehler, bei Gemini war jede fünfte Antwort fehlerhaft.

Die Fehler sind teils haarsträubend: Gefragt danach, ob Victor Orban ein Diktator ist, behauptet die Google KI, Orban werde in einem ZDF-Bericht als „Putins Brückenkopf in der EU“ beschrieben – ein erfundenes Zitat, das im entsprechenden Bericht nicht auftaucht.

Wenn ChatGPT die Antwort nicht kennt, wird einfach geraten

Auch in anderen Fällen lieferten die Chatbots erfundene Zitate, dichteten ganze Sätze hinzu oder ordneten das Gesagte gar nicht oder falsch zu. Oder wie es ein Studienautor der BBC zusammenfasst: „Die KI scheitert daran, eine Frage mit einem einfachen und korrekten „Wir wissen es nicht“ zu beantworten. Sie versucht, die Lücken mit Erklärungen zu füllen.“

Um das Problem weiß auch ChatGPT-Entwickler OpenAI: Das Erfinden von Fakten, sogenanntes Halluzinieren, passiert offenbar, weil die Sprachmodelle beim Trainieren belohnt werden, wenn sie eine Antwort erraten – statt anzugeben, dass sie die Antwort nicht kennen oder unsicher sind.

Weitere Probleme machten die Autoren bei sich schnell entwickelnden Nachrichtenlagen aus, ebenso bei komplexen Ereignissen, die viele Akteure umfassen, Detailfragen oder Themen, bei denen klar zwischen Meinung und Fakten unterschieden werden muss. 

EBU-Studie: KI-Assistenten müssen bei Fehlern Rechenschaft ablegen 

Das Fazit der Studie: Das Problem, dass KI-Chatbots Nachrichteninhalte verzerren, sei signifikant und systematisch. Auch wenn es gewisse Verbesserungen gebe, seien die Probleme bedenklich: „Man kann nicht sagen, dass diese Assistenten eine verlässliche Quelle für Informationen über das Nachrichtengeschehen sind.“

Auch traditionelle Medien würden manchmal Fehler machen, so die Studienautoren weiter, „aber sie haben eingespielte Prozesse, diese Fehler zu finden, anzuerkennen und zu korrigieren. Es ist wichtig, dass diese Rechenschaftspflicht auch für KI-Assistenten gilt.“

Kommentar hinzufügen

Kommentare

Neueste zuerst | Älteste zuerst | Beste Bewertung
Keine Kommentare gefunden
Nach oben  Nach oben