生成AIと大規模言語モデル応用問題
LLMが「幻覚(hallucination)」を生成する主な原因として最も正確な説明はどれか?
A.訓練データに含まれない情報をモデルが完全に推測して生成するため、科学的根拠のない内容が出力される
✗ 「完全な推測」という説明は不正確。実際には訓練データのパターンを拡張する際に、統計的に尤もらしいが事実と異なるテキストが生成される。
B.モデルは次トークン予測の確率最大化を目標としており、訓練データの統計パターンに基づいて尤もらしく見える(但し事実と異なる)テキストを出力することがある← 正解
✓ 正解です。LLMは「次に続く確率が高いトークンは何か」を最大化する設計のため、訓練データの統計パターンに基づいて事実性よりも尤度が高い内容を出力することがあります。
C.モデルの推論時に過度なランダムノイズが混入され、出力が崩壊する
✗ 温度やトークンサンプリング以上のランダムノイズが原因ではなく、モデルの基本設計(確率的言語生成)が原因。
D.幻覚は設計欠陥であり、正常に機能するLLMでは発生しない現象である
✗ 幻覚は大規模で高性能なLLMにおいても起こる現象であり、完全に排除することは困難。設計欠陥というより根本的な特性。