🎯 Hallucination Rate - Die kritische Metrik
Definition: Der Prozentsatz der AI-Ausgaben, die faktisch falsche oder nicht verifizierbare Informationen enthalten
Was bedeutet "Hallucination"?
- Fabricated Facts: Die KI erfindet Informationen, Events oder Quellen, die nicht existieren
- Beispiel: "Laut einer Studie der Universität Musterstadt von 2023..." (Studie existiert nicht)
- Beispiel: Erfundene Zitate, nicht existierende Bücher, falsche Daten
- Contextual Errors: Faktisch korrekte Info, aber irrelevant für den Prompt
- Beispiel: Nutzer fragt nach Python 3.11 → Modell antwortet mit Python 2.7 Syntax
- Instruction Failure: Nicht-Befolgen von user-spezifizierten Regeln oder Formaten
- Beispiel: "Antwort nur mit Ja/Nein" → Modell schreibt Paragraphen
Typische Hallucination Rates & Trends
10-20%
General Chatbots (GPT-3.5, Early Models)
5-10%
Modern Large Models (GPT-4, Claude 3)
1-3%
Enterprise/Specialized AI with RAG
15-25%
Some Reasoning Models (higher claim volume = more errors)
⚠️ Counterintuitive Trend: Größere Modelle können mehr halluzinieren
Warum? Neuere, leistungsfähige Reasoning-Modelle generieren mehr Claims insgesamt, was die Chancen für Fehler erhöht. Ein einfacheres Modell macht wenige Aussagen → weniger Fehler. Ein komplexes Model macht viele detaillierte Aussagen → mehr Gelegenheit für Hallucinations.
Beispiel: OpenAI's o3-Reasoning-Modell: Mehr Denkschritte sichtbar = mehr Gelegenheit für Fehler im Reasoning-Prozess
Warum Hallucination Rate entscheidend ist:
- Trust & Reputation: Hohe Hallucination Rates zerstören Nutzervertrauen
- Nutzer-Studie: Nach 3 erkannten Hallucinations sinkt Vertrauen um 70%
- Domino-Effekt: Nutzer vertrauen dann auch korrekten Ausgaben nicht mehr
- Accuracy: Schlüsselmetrik für Wahrheit und Zuverlässigkeit
- Kritisch in: Medizin, Recht, Bildung, Finanzen, Journalismus
- Potentiell gefährlich: Medizinische Fehlinformationen, rechtlich falsche Ratschläge
- Liability: Hallucinations können rechtliche Folgen haben
- Verleumdung durch erfundene Quotes
- Falschberatung in professionellen Kontexten
Faktoren, die Hallucination Rates beeinflussen:
| Faktor |
Auswirkung |
Details |
| Model Size & Training |
Größere Modelle oft besser |
Aber: Neuere Reasoning-Modelle können kämpfen wegen mehr generated claims |
| Use Case |
Stark variabel |
General queries (15-20%) vs. Document Summarization (3-5%) |
| Retrieval-Augmented Generation (RAG) |
Reduziert drastisch |
Von 15% auf 1-3% durch Verankerung in externe Datenquellen |
| Temperature Setting |
Höher = mehr Hallucinations |
Temp 0.7-1.0 kreativ, aber unzuverlässig. Temp 0.0-0.3 für Fakten |
| Prompt Engineering |
Kann 30-50% reduzieren |
"If you don't know, say so" + "Cite sources" prompts helfen |
| Fine-Tuning on Domain |
Verbessert Accuracy |
Medical/Legal models mit spezialisiertem Training halluzinieren weniger |
Wie man Hallucination Rate misst:
- Human Evaluation: Experten prüfen Samples (Gold Standard, aber teuer)
- Fact-Checking gegen Known Corpus: Automatischer Vergleich mit verifizierten Daten
- Consistency Checks: Fragt Modell mehrfach, prüft Widersprüche
- Citation Verification: Überprüft, ob zitierte Quellen real sind und korrekt wiedergegeben
- Benchmarks: TruthfulQA, HaluEval, SelfCheckGPT
💡 Best Practices zur Reduzierung von Hallucinations
- RAG implementieren: Grounding in echten Daten (reduziert um 70-90%)
- Uncertainty Quantification: Modell soll "Ich weiß nicht" sagen können
- Source Attribution: Zwinge Modell, Quellen zu nennen
- Multi-Model Validation: Cross-check mit zweitem Modell
- Temperature = 0: Für faktische Queries deterministische Outputs
- Prompt: "Be factual and cite sources"
- Post-Hoc Verification: Automatische Fact-Checker im Pipeline