2025.11.28

LLMの幻覚（ハルシネーション）対策｜検証体制より先に必要な「分からない」設計

企業のLLM導入が加速する2025年、ハルシネーション（AIが誤った情報を自信満々に出力する現象）への対策が技術課題となっています。しかし多くの企業が「検証・監視体制を強化すれば解決する」という前提で取り組み、失敗しています。本記事では、なぜその対策では不十分なのか、そしてまず何から始めるべきかを解説します。

なぜ技術的対策だけでは不十分なのか

ハルシネーションは「バグ」ではなく「仕様」である

多くの企業がRAG（検索拡張生成）やファインチューニングでハルシネーションを削減しようとしています。確かにこれは有効な手段です。しかし完全排除は非常に困難なものであることが指摘されています。

たとえばarXivに掲載された論文は、計算理論とゲーデルの不完全性定理に基づき、「LLMプロセスのあらゆる段階で、ハルシネーションを生成する確率は存在する。アーキテクチャがどれほど高度でも、ハルシネーションは排除不可能である」と主張しています[1]。

さらに直感に反するのは、「AIに正しい知識を教え込めば解決する」という発想が誤りだという点です。2024年の研究では、ファインチューニングで新知識を学習させるとハルシネーション傾向が増加することが明らかになりました[2]。つまりハルシネーションは「バグ」ではなく、LLMの「仕様」なのです。

高性能モデルでも特定タスクでは約1割は間違える

では最新の高性能モデルなら大丈夫なのでしょうか。Vectara社のベンチマークによれば、特定のタスクにおいてはAnthropic社Claude Opus 4.5でもハルシネーション率10.9 %が報告されています[3]。

さらに質問する分野が専門的になればなるほどハルシネーション率が高くなることが研究により報告されています。また知識カットオフ以降のことについての知識がないこともハルシネーションを起こす原因の１つとして知られています。

企業が見落としているインセンティブ問題

OpenAIが明らかにした「評価基準」の根本的欠陥

2025年9月、OpenAIは画期的な研究論文を発表しました。ハルシネーションの根本原因は技術的限界ではなく、評価システムのインセンティブ設計問題だというのです[4]。

研究チームが主要AIベンチマーク10種を分析したところ、9種が「分からない」回答にゼロ点を与えるバイナリ評価を採用していました。つまりLLMは、「推測して間違える」ほうが「不確実性を認める」より高得点を得られる構造で訓練されているのです。

この構造は企業のAI活用にもそのまま当てはまります。多くの組織では「AIが回答できなかった」ことをネガティブに評価し、「常に何か答えを返す」ことを暗黙の期待としています。明確なガイダンスなしでは、LLMは決して「分からない」とは言わず、常に何かを出力します。そして多くの場合、それは誤まった回答となります。

Air Canada判決が示す法的リスク

2024年、カナダの民事決裁裁判所は画期的な判決を下しました[5]。Air CanadaのAIチャットボットが遺族割引運賃について「旅行後90日以内に申請可能」という誤情報を顧客に提供し、企業は812.02ドルの賠償を命じられたのです。

注目すべきは、裁判所が「チャットボットは別の法的主体である」というAir Canadaの弁護を「驚くべき主張」として退けた点です。企業はウェブサイト上のボットの回答に対して責任を負うという判決は、ハルシネーション対策を「技術的課題」から「法的リスク」へと格上げしました。

免責文言だけでは法的リスクを回避できない場合があることを示唆する事案として覚えておくと良いでしょう。

「分からない」と言える設計への転換

学術界が示す新しいアプローチ

では、どうすればよいのでしょうか。学術界では2024-2025年にかけて「Abstention（棄権）」研究が急速に進展しています。

2025年のACLチュートリアルで紹介されたLM-Polygraphフレームワークや、Conformal Abstention手法は、LLMが自己評価で回答の信頼性を判定し、適切に「分からない」と言う仕組みを提供しています[6][7]。これらの手法により、LLMは不確実な質問に対して無理に回答せず、人間にエスカレーションできるようになります。

開発企業・導入企業にできること

企業がRAGシステムやプロンプトを設計するとき、どうしても「正しい答えを出させる」ことに注力しがちです。しかしより重要なのは、AIに「分からない」という選択肢を与え、人間が介入するフォールバックフローを設計することです。これにより、法的リスクを回避しながら信頼性の高いシステムを構築できます。

パラダイムシフトが必要な理由

企業のLLMハルシネーション対策は、「いかに防ぐか」から「いかに管理するか」へのパラダイムシフトを必要としています。

AIが「分からない」と頻繁に言えば、ユーザーは他に答えを求めるでしょう。しかしAir Canadaの事例が示すように、ハルシネーションを放置することのコストは、「分からない」と正直に言うことのコストを大きく上回ります。

単に検証・監視体制で後からハルシネーションを捕まえようとするだけではなく、最初から「分からない」と言える設計と、それを許容する組織文化を構築すること。これこそが、2025年以降のLLM活用における成功の鍵となるのです。

技術的対策は重要ですが、それ以上に重要なのは「AIは完璧ではない」という前提を受け入れ不確実性を正直にユーザーに伝える誠実さです。この誠実さこそが、長期的な信頼構築と持続可能なAI活用を可能にします。

まとめ

企業のLLMハルシネーション対策は、「いかに防ぐか」から「いかに管理するか」へのパラダイムシフトを必要としています。

AIが「分からない」と頻繁に言えば、ユーザーは他に答えを求めるかもしれません。しかしAir Canadaの事例が示すように、ハルシネーションを放置するコストは、「分からない」と正直に言うコストを大きく上回ります。

検証・監視体制で後からハルシネーションを捕まえようとするだけでなく、最初から「分からない」と言える設計を組み込むこと。そしてそれを「不完全さ」ではなく「誠実さ」として評価する組織文化を築くこと。これこそが、2025年以降のLLM活用における成功の鍵です。

完璧なAIは存在しません。しかし、自分の限界を知り、それを正直に伝えられるAIは、長期的な信頼関係の土台となります。技術的な完璧さを追求するよりも、不確実性と誠実に向き合う姿勢が、持続可能なAI活用を可能にするのです。

参考文献

[1] LLMs Will Always Hallucinate, and We Need to Live With This – arXiv
[2] Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations? – Continuum Labs
[3] Hallucination Leaderboard – Vectara
[4] Why Language Models Hallucinate – OpenAI (2025年9月)
[5] Moffatt v. Air Canada – カナダ民事決裁裁判所 (2024年)
[6] Uncertainty Quantification for Large Language Models – ACL 2025
[7] Mitigating LLM Hallucinations via Conformal Abstention – arXiv

この記事を書いた人

Yuji Oe

ソリューションサービス事業部

10年以上の業界経験（主にデータベース分野）を生かし、現在はSmart Generative Chatの導入のプロジェクトマネジメントを中心に活動。