快適な応答は設計されている：RLHFと安全層の構造と限界

第五章では、大規模言語モデル（LLM）の出力が構造的に検証を経ていないこと、そしてハルシネーションがモデルの異常動作ではなく通常動作の帰結であることを示しました。出力の妥当性を判断する機能はモデル内部に存在せず、その工程は利用者側にしか存在しません。

しかし、多くの利用者はこの構造的制約を意識しないまま、生成AIの出力を受け入れています。その背景には、LLMの出力が「信頼しやすい形」で提示されているという事実があります。

生成AIの応答は、肯定的で、共感的で、断定的な語調を持っています。質問に対して否定や留保を示すことは少なく、利用者の発言に同意的に応じ、流暢な文体で一貫した応答を返します。この「心地よさ」は偶然の産物ではありません。LLMの出力は、事前学習の後に施される複数の調整工程を経て、利用者が快適に感じる方向へ意図的に最適化されています。

本稿では、この調整の仕組みを構成する主要な要素を順に整理します。RLHF（人間のフィードバックによる強化学習）、システムプロンプトと安全フィルタ、そしてRAGやツール連携による外部情報の参照について、それぞれが何を補正し、何を補正できないのかを示します。

この記事の内容

RLHFの仕組みと「好まれる応答」の形成
システムプロンプトと安全フィルタの構造
「分かりません」と言えない構造
共感的応答と擬人化はなぜ生じるか
RAG・ツール連携による「擬似的な検証」
更新履歴
関連記事

RLHFの仕組みと「好まれる応答」の形成

LLMの構築は、大きく分けて二つの段階を経ています。第一段階の事前学習では、インターネット上のテキストや書籍など大量のデータから語と語の統計的な関連パターンを学習し、入力に対して「次に出現する確率が高い語」を予測する確率モデルを構築します。

第二段階が、RLHF（Reinforcement Learning from Human Feedback：人間のフィードバックによる強化学習）と呼ばれる調整工程です。モデルが生成した複数の応答に対して人間の評価者が「どちらが好ましいか」を判定し、高く評価された応答パターンを強化、低く評価されたパターンを抑制することで、出力傾向を調整します。

ここで重要なのは、評価の基準が「正確かどうか」ではなく「好ましいかどうか」に置かれている点です。評価者は応答の事実関係を逐一検証しているわけではなく、文体の自然さや語調の丁寧さ、質問への応答としての適切さといった体験の質を基準に判断しています。正確だが素っ気ない応答よりも、多少曖昧でも丁寧で共感的な応答のほうが高く評価される傾向が生じます。

この調整の結果、モデルの出力にはいくつかの偏りが生じます。利用者の発言に対して否定や反論を避け、同意的・肯定的に応じやすくなること。「分かりません」「判断できません」といった不明の表明よりも、何らかの応答を継続する方向に傾くこと。そして共感的な語句や丁寧な前置きが多用されることです。これらはいずれも利用者にとって「快適な応答」を構成する要素であり、RLHFはこの快適さを体系的に強化する仕組みとして機能しています。

第一章では、利用者が生成AIの応答に「肯定の快適さ」を見出し、「理解された」と解釈する認知バイアスを示しました。RLHFの構造は、この快適さが利用者側の誤認だけでなく、提供側による設計上の選択でもあることを示しています。利用者の認知バイアスと、それを刺激する方向に最適化された出力傾向は、相互に強化し合う関係にあります。

📌 2026年4月、OpenAIは ChatGPTが脈絡のない文脈で「ゴブリン」や「グレムリン」といった空想上の生き物に繰り返し言及する現象について、原因の調査結果を公表しました。OpenAIによると、ChatGPTの性格設定のうち「Nerdy（オタクっぽい）」に対する強化学習の報酬シグナルが、ゴブリンなどを含む表現を優遇する傾向を持っており、この傾向が他の性格設定にも波及していました。GPT-5.1の公開以降、応答における「ゴブリン」の使用頻度は175%増加したと報告されています。この事例は、RLHFにおける評価基準の偏りが、開発者の意図しない出力傾向をモデル全体に定着させうることを示しています。

国内最大級テンプレート共有サービス bizocean

システムプロンプトと安全フィルタの構造

LLMの出力を調整する仕組みは、RLHFだけではありません。実際のサービスとして提供される生成AIには、システムプロンプトと安全フィルタという二つの制御層が追加されています。

システムプロンプトは、利用者には表示されない内部的な指示文であり、モデルの応答の人格、語調、制約条件を規定します。たとえば「丁寧な語調で応答する」「政治的に中立な立場を取る」「特定の話題については回答を控える」といった指示が含まれており、同じモデルであってもシステムプロンプトの内容によって応答の振る舞いは大きく変わります。利用者が対話しているのは、LLMそのものではなく、システムプロンプトによって振る舞いを規定されたLLMです。

安全フィルタ（コンテンツフィルタ）は、モデルの出力から有害・危険と判定される内容を抑制する事後処理の仕組みです。暴力的な内容、違法行為の手順、差別的な表現などが出力されないよう、生成された応答に対してフィルタリングが適用されます。

これらの制御層はいずれも、LLMの出力能力そのものを変えるのではなく、出力の「表層」を制御する仕組みです。システムプロンプトはモデルが出力する語の選択傾向を誘導し、安全フィルタは生成後の出力を選別しますが、どちらもモデル内部に検証機構や意味理解を追加するものではありません。そのため、システムプロンプトの指示を無効化する「ジェイルブレイク（脱獄）」や、利用者の入力を通じて内部指示を上書きする「プロンプトインジェクション」といった手法によって、これらの制約が回避される事例が継続的に報告されています。

安全フィルタが抑制するのは特定のカテゴリに該当する出力であり、出力が事実かどうかを検証する機構の不在とは別の問題です。

2025年4月、米フロリダ州立大学のキャンパスで発生した銃乱射事件では、容疑者が犯行前に ChatGPTと繰り返しやりとりを行い、銃器や弾薬の選定、より多くの人を襲撃できる時間帯や場所について助言を得ていたことが報じられています。この事件では2人が死亡し、フロリダ州当局は2026年4月、OpenAIに対する刑事責任の捜査を開始しました。安全フィルタは特定カテゴリの有害な出力を抑制する設計ですが、この事例では犯行に直結する情報が安全フィルタを通過して出力されており、表層的な制御の限界が具体的な被害として現れています。

「分かりません」と言えない構造

LLMは入力されたトークン列に対して、次に出現する確率が最も高いトークンを逐次選択する仕組みで動作しています。この処理には「情報が不足している」「判断できない」といった内部状態が存在しません。入力がどれほど曖昧であっても、前提に矛盾が含まれていても、モデルは何らかのトークンを出力し続けます。処理を停止する条件は、終了トークンが生成されるか、出力トークン数の上限に達した場合のみであり、「回答すべきでない」と判断して出力を中断する機構は備わっていません。

この構造はRLHFによってさらに強化されています。「分かりません」「情報が不足しており回答できません」といった応答は、評価者に「不十分な応答」として低く評価されやすいため、モデルはこうした表明を避け、何らかの回答を生成する方向に最適化されます。

その結果、LLMは二重の構造的制約を抱えています。第一に、確率的生成の仕組み上、「不明」という内部状態を持てないこと。第二に、RLHFの調整により、不明の表明そのものが抑制されていること。この二つが重なることで、LLMは情報の有無にかかわらず、常に「回答しているように見える出力」を継続する構造になっています。

現在の主要なチャットAIでは、特定の質問に対して「その情報は確認できません」と応答する場合があります。しかし、これはモデルが自身の知識の限界を認識した結果ではなく、システムプロンプトや安全フィルタによる外部的な制御の結果です。前節で示したとおり、これらの制御層はモデルの内部構造を変えるものではなく、制御が及ばない文脈では、モデルは依然として不明を表明できないまま応答を生成します。

LLMは、出力の正誤を判定する機構がなく、かつ「分からない」と伝える機能もないため、正しい情報も誤った情報も同じ語調で、同じように応答として提示します。利用者から見ると、すべての出力が等しく「回答」として提示されるため、どの出力に対して検証が必要かを出力自体から判断する手がかりがありません。

共感的応答と擬人化はなぜ生じるか

生成AIの応答には、「確かにそのとおりです」「興味深い視点ですね」「鋭い質問です」といった共感的・評価的な表現が頻繁に含まれています。これらの表現は、AIが利用者の発言内容を理解し、評価した結果として出力されているように見えますが、実際には利用者の発言に対する理解や評価ではなく、学習データとRLHFの評価傾向から統計的に選択された語彙パターンです。

この傾向は、UI（ユーザーインターフェイス）の設計によってさらに補強されています。現在の主要なチャットAIは、メッセージアプリと同様の吹き出し形式を採用し、一人称を使用し、一貫した語調で応答します。これらの設計要素は、利用者に「一対一の対話相手が存在する」という印象を与え、出力に対して人格や意図を読み取る方向に認識を誘導します。

人間は、会話相手の言葉遣いや語調から意図や感情を推測するように進化してきました。共感的な語句と対話的なUIの組み合わせは、この認知的傾向を刺激し、利用者にAIが「理解している」「共感している」と錯覚させる構造をつくり出しています。第一章で示した擬人化推論は、利用者側の認知バイアスとして記述しましたが、RLHFによる共感的応答の強化とUI設計による対話の演出は、この擬人化推論を意図的に誘発する提供側の設計であり、両者は相互に強化し合っています。

利用者がAIを「情報処理システム」ではなく「対話相手」として認識し始めると、出力に対する態度が変化します。情報の正確性を検証する対象としてではなく、信頼できる相手からの助言として受け取る傾向が強まり、検証の工程を省略するようになるのです。

2025年7月に電通が公表した調査では、対話型AIを週1回以上使用する割合は10代が41.9%と全世代で最も高く、対話型AIに「相談に乗ってほしい」と回答した10代は41.0%に達しています。また、対話型AIを信頼していると回答した人は全体で86.0%にのぼり、10代と20代では「非常に信頼している」「信頼している」の合計が半数を超えています。AIを情報検索の道具としてではなく、感情を共有し助言を求める相手として認識する傾向は、すでに若年層を中心に定着しつつあります。

RAG・ツール連携による「擬似的な検証」

近年の生成AIサービスでは、LLM単体ではなく、外部の情報源やツールと連携して応答を生成する仕組みが導入されています。代表的なものが RAG（Retrieval-Augmented Generation：検索拡張生成）です。RAGでは、利用者の入力に関連する情報を外部のデータベースやWeb検索から取得し、その情報をLLMへの入力に追加したうえで応答を生成します。このほかにも、コード実行環境やファイル参照、外部APIの呼び出しなど、さまざまなツール連携が実装されています。

これらの仕組みにより、LLMが学習データに含まれていない最新の情報や、特定の領域に特化した情報を応答に反映できるようになりました。出力に情報源のリンクが付与される場合もあり、利用者にとっては「AIが調べてから答えている」ように見えます。

しかし、RAGやツール連携が行っているのは「参照情報の追加」であり、「出力内容の検証」ではありません。RAGによって取得された情報は、LLMへの入力テキストとして追加されるだけであり、LLMはその情報が正確かどうかを判定する機能を持たないまま、追加された情報を含むトークン列から確率的に応答を生成します。取得された情報自体が誤っている場合、あるいは取得された情報とLLMの生成内容が矛盾する場合でも、モデルがその不整合を検出する仕組みはありません。

LLMの出力には参照元も検証過程も構造として含まれていないという原則は、RAGを導入した場合にも変わりません。RAGは参照元をLLMの入力に追加しますが、LLM内部の処理は依然として確率的生成であり、参照元の情報をどの程度正確に反映するか、あるいは参照元にない情報を補完的に生成してしまうかは、モデルの制御の範囲外です。

RAGやツール連携の導入は、出力の正答率を統計的に高める可能性がありますが、「すべての出力が検証済みである」という状態を実現するものではありません。外部情報を参照して応答に取り込むことと、取り込んだ情報および生成された応答の正確性を判定することは、技術的にまったく別の処理であり、現在のRAGが実現しているのは前者のみです。

RLHF、システムプロンプトと安全フィルタ、RAGとツール連携は、いずれもLLMの出力を「外側から」調整・補完する仕組みであり、確率的生成という動作原理や検証機構の不在を変えるものではありません。むしろ、安全フィルタがあるから危険な出力は防がれている、RAGがあるからAIは調べてから答えている、共感的な語調だから信頼できる相手である、といった印象を形成し、利用者の検証意識を低下させる方向に作用する可能性があります。出力の妥当性を判断する工程は、これらの仕組みを加味しても、依然として利用者の側にしか存在しません。

更新履歴

2024-05-01：初版公開

第五章　大規模言語モデルは判断と検証を持たない：構造的限界とハルシネーション
大規模言語モデルには出力の正誤を判定する検証機構が存在せず、ハルシネーションは誤動作ではなく通常動作の帰結として発生します。語調の断定性や文脈窓の制約を含め、LLMの出力が構造的に検証を経ていない事実…
第四章　人の脳と人工ニューラルネットワーク：構造と働きの違い
人工ニューラルネットワークと人の脳の構造的差異を、記憶の再構成と重みの数値保持、学習における意味形成と誤差最小化、思考に関わる目的指向性と統計的出力の違いという観点から整理し、大規模言語モデルの応答が…
第三章　AIの歴史と構造：記号処理から学習モデルへ
人工知能（AI）の歴史と構造について、記号処理型AIからニューラルネットワークによる学習型モデルへの進化を整理し、誤差逆伝播法による多層構造の学習実現、深層学習による自己調整構造への転換、大規模言語モ…
第二章　文化が形づくった「AIへの期待と誤解」
映画やアニメなどのフィクションが形づくったAI像が、万能性の投影、ブラックボックスへの誤推測、意図や判断を読み取るエージェント性の付与、倫理判断の外部委譲といった心理作用を誘発し、生成AIを実態以上に…
第一章　生成AIに「理解」を見出す土壌の形成
生成AIが広く利用されるようになりましたが、その応答が一貫して肯定的・迎合的である点に対して、多くの利用者は問題として認識していません。応答の滑らかさや、対立を避けた肯定的言い回しが「人格的振る舞い」…