2025年4月、R (Ayinde) v London Borough of Haringey [2025] EWHC 1040 (Admin) において、Ritchie J は、司法審査の理由書に引用された五件の判例がいずれも存在しないと認定し、バリスター個人および事務弁護士のそれぞれに対し£2,000の費用浪費命令(wasted costs order)を下した。二か月後、Sharp P と Johnson J を構成員とする分割法廷(Divisional Court)が同じ事実関係についてAyinde and Al-Haroun [2025] EWHC 1383 (Admin) を判示し、併合された Al-Haroun v Qatar National Bank ではさらに踏み込んだ判断が示された ── 引用された四十五件の判例のうち十八件が存在せず、実在する判例の多くについても、それに帰された引用文はそこに存在しなかった。分割法廷は関係者をそれぞれの規制機関に通報し、法廷侮辱の閾値に達していると認定した。さらに二か月後、MS (Bangladesh) [2025] UKUT 305 (IAC) において、移民事件のバリスターが ChatGPT の出力をそのまま印刷したものを控訴院判決として上級審判所に提出した。Ayinde の判決を渡されて引用を再検討するよう求められた際、当該バリスターは ChatGPT を用いて引用を「検証」したのであり、ChatGPT は親切にも偽の判例を「実在する」と確認した。AIによる架空の判例引用を含む判決を追跡する公開トラッカーは継続的に更新されており、新たな事案がほぼ毎週追加されている。バー・カウンシルは2025年11月下旬、判例の進展に追随する形で生成AIに関するガイダンスを改訂した。

0 10 20 30 40 50 56 2023 2024 2025 2026 56
Cumulative count of UK judgments in which a court has identified or strongly suspected AI-fabricated authorities or quotations. Source: Damien Charlotin's AI Hallucination Cases tracker, fetched at build time. Snapshot: 56 UK cases as of 2026-05-21.

このパターン ── 流暢な散文、整った形式の引用、内的に一貫した論証、しかしそのいずれも実体に紐づいていない ── は大規模言語モデルの予測可能な失敗様式であり、例外ではない。臨床用語の「ハルシネーション」は誤解を招く。モデルが行っているのはむしろ作話(confabulation)に近い ── 実体に裏づけられない一方で、もっともらしい法律文書の局所的な統計に適合する内容を生成しているのである。検索拡張(retrieval)はこの問題を緩和するが、解消しない。Stanford RegLab の Magesh らによる研究Hallucination-Free? Assessing the Reliability of Leading AI Legal Research Tools では、Lexis+ AI が約17%、Westlaw の AI-Assisted Research が約33%、ベースラインの GPT-4 が約43% の頻度でハルシネーションを起こすことが示された。商用の主要RAGツールでさえ三回に一回の割合となれば、独立した検証なしにバリスターが依拠できる水準ではない。さらに鋭い失敗様式は批評である。文書を批判するよう求められたとき、現行のフロンティアモデルは批評の形をした文章 ── 内的に整合し、流暢で、構造的に整っているもの ── を、対象事実への根拠づけを一切伴わずに、極めて巧みに生成してしまう。マルチエージェント系に関する近年の文献 ── Wynn・Satija・Hadfield のTalk Isn’t Always Cheap や Princeton のAI Agents That Matter を含む ── は、こうした失敗様式を詳細に図示してきた。

文献が収束する結論は、LLMを信頼できるものにできない、というものではない ── 信頼性は、それらが「どう使われるか」の構造に組み込んで設計されなければならない、というものだ。文書を貼り付け、批評を求め、出力を読む ── という単発批評のパターンには、そのような構造がない。これは法務にとって最悪の構成である ── 賭け金が高く、事実が密で、検索源に乏しく、しかもモデルは「もっともらしく聞こえること」で報酬を受け、間違えても罰を受けないからだ。

何が実際に機能するか

実際に機能するアーキテクチャは、私が構築し、また他者が構築するのを見てきた範囲では、いずれも何らかの形のシンセサイザー・監査者(synthesiser-and-auditor)パターンである。呼称は様々だが、構造的なコミットメントは同じである。

Single-shot critique Document LLM no source access Critique fluent · confident · ungrounded Lawyer structure mistaken for substance Synthesiser & auditor loop Document Synthesiser drafts · proposes Sources Auditor checks atomic claims ranked worklist + sources Lawyer prioritises · debugs draft atomic claims evidence information asymmetry
The single-shot pattern (left) collapses generation, criticism and verification into one un-grounded pass; the lawyer is downstream of an opaque output. The synthesiser-and-auditor pattern (right) is an iterative loop: roles are separated, the auditor has independent source access, and the lawyer is the prioritisation gate that decides which auditor findings warrant a revision. Only the lawyer's prioritised filter passes from auditor side to synthesiser side — preserving information asymmetry across iterations. The loop terminates when the lawyer says it does.

第一の要素は 役割間の情報非対称性 である。起案や批評を行うエージェントは検証も兼ねない。検証を担うエージェントは、起案エージェントの出力をそのままの形では受け取らない ── 受け取るのは、その出力をチェック可能な命題に分解したものである。これは MARCH フレームワーク ── Multi-Agent Reinforced Self-Check ── の中核にある設計だ。Solver が生成し、Proposer が出力をアトミックな主張へ分解し、Checker が Solver の元の文言から切り離された状態で、各主張を取得した証拠と照合して検証する。情報非対称性こそが要点だ ── これにより、検証者が生成者の論理を見せられたがゆえに生成者の誤りを合理化してしまう、自己確認のループが断ち切られる。

第二の要素は アトミックな主張への分解 である。「因果関係に関する節は弱い」という批評は検証不能だ。「12ページ4段落の命題、すなわち Caparo が損害の程度ではなく種類の予見可能性を要求するという命題は当該判例を誤って述べている」という批評は検証可能だ ── 出典は出典の述べる通りのことを述べる。アーキテクチャ上のコミットメントは、システムから出る批評はすべて、個別に検証可能なアトミックな命題のリスト ── それぞれにその命題の根拠となる出典が付随したもの ── に還元できる形でなければならないということだ。PROClaim ── 漸進的な検索を備えた法廷スタイルのフレームワーク ── はこの方向を徹底し、Check-COVID ベンチマークで81.7%の精度を達成した。これは標準的なマルチエージェント・ディベートを約十ポイント上回る数値であり、そのうちおよそ7.5ポイントは議論そのものではなく、漸進的検索(progressive retrieval)の工程に由来している。

第三の要素は 異種のツールとモデル である。同一のモデルが生成と検証を兼ねるなら、それはチェックを導入したのではなく、相関した分布から二回サンプリングしただけだ。Tool-MAD フレームワーク はこれを明示的に扱っている ── 個別のエージェントを個別の外部ツールに紐づけ(一方はベクトルインデックス化された判例コーパスへ、もう一方は実時間の法律検索APIへ)、両者の不一致を平均化せず表に出すのである。原則は一般化される。可能な範囲で、シンセサイザーと監査者には異なるモデルファミリーを用い、それぞれを異なる証拠源に結合させるべきだ。

第四の要素は 討論の打ち切り である。Talk Isn’t Always Cheap の経験的所見は、エージェント間の議論ラウンドを増やすことが助けにならないどころかしばしば害になるというものだ。設計上の選択は二つある。第一は、対話を一回ないし二回の構造化された交換に制限し、エージェントが合意を宣言することではなく、決定論的な手続きでループを終わらせること ── この体制下では合意は真実の証拠にならない。合意とは、ご機嫌取り(sycophancy)が生み出すものだからである。第二は、各エージェントに「一ターン分の記憶」だけを持たせること ── 各反復は現在の状態のみを受け取り、自身の過去のターンは持ち越さない。ラウンドをまたいで文脈が累積することが、エージェントを自己整合的だが誤った立場へと収束させる仕組みであり、文献ではこれを「文脈汚染(context pollution)」と呼ぶ。

第五の要素は 人間による優先順位付けというゲート である。パイプラインの最終段は監査者の判定ではなく、争点となった命題を順位付けし、各命題が依拠する出典を添えて、人間のレビュアーに判断を委ねるリストである。システムが、ある批評が正しいと自律的に結論することは決してない。生成されるのはワークリストだ ── 監査者が検証できなかった点はこれ、検証に必要な出典はこれ、人間が見るべき優先順位はこの順、というものである。下流はすべて、バリスターやソリシターが判例を読み判断を行う作業であり、ツールは「意見を届ける装置」ではなく「検索と短絡化の加速装置」として機能する。

第四と第五のコミットメントは、二つの異なる層でバイアスを抑える ── 一ターン記憶を伴う討論の打ち切りはループ内部での「合意への収束」動態を防ぎ、人間によるゲートは監査者側の局所的バイアス(冗長性選好、取得証拠の欠落、判定者としての位置バイアス)が下流に蓄積することを防ぐ。前者はモデルのループに対する制限であり、後者は弁護士に届くものに対する制限である。

これら五つのコミットメントは、出力が*検査可能(inspectable)*であるシステムを生むのに十分である。レビュアーは、システムが行った任意の主張について、それがどのアトミックな命題に依拠し、どの出典がそれを支え、監査者はどこで意見を異にし、どこで判断を保留したかを見ることができる。「AIがそう判断した」という不透明な工程は存在しない。代償としてシステムは遅く、クエリあたりのコストが高く、デモ映えしない。それでも、これは法廷義務を負うバリスターに見せられる唯一の構成である。

法そのものがすでにコードである場所

法が既に機械可読な形で表現されている場所では、監査者の仕事は一気に楽になる。これは*計算法学(computational law)*あるいは Rules-as-Code と呼ばれる、新興の領域が取り組んでいる課題である。Inria のCatala プロジェクト は、フランスの家族手当および所得税の算定を、根拠法令から直接導出される実行可能なコードとして表現する試みを、CNAF と DGFiP との共同パイロットとして進めている。米コロンビア特別区(DC)議会のGitHub にバージョン管理されたコロンビア特別区法典は、もう一つの代表例だ。スペインのlegalize-es プロジェクト は、スペインの立法のあらゆる改正を独立したコミットとして反映している。いずれの場合も、成果物はクエリ可能であり、バージョン管理され、差分が取れる。法令が「何を定めているか」という主張は、モデルが記憶した条文の文言ではなく、コードとしての法令そのものに照らして検証できる。このインフラが存在する場所では、シンセサイザー・監査者パターンの構造的優位性は累乗的に高まる ── 監査者の証拠基盤が、精密で、決定論的で、安価にクエリできるものになるからである。

正直に述べておくべきことがある ── 法をこの種の処理になじませられる領域は限られており、政治経済学的な力学はその拡張に抵抗する。判定手続きとして既に機能している部分の法 ── 税、社会給付、規制閾値 ── はきれいに翻訳される。コモン・ローの法的推論、真に争いのある場合の法令解釈、そして規範が新規の状況にどう及ぶかを決する憲法的推論は、そうではない。これらは「形式化を待っている未解決の問題」ではない。それらはまさに未解決の解釈論争によって意味が決まる領域であり、それをデフォルト論理の表現に還元することは、対象自体を変質させてしまう。技術的な限界の先に、構造的な限界がある。立法における曖昧さは、しばしばそれを生み出した政治的妥協の荷重を担う部材である。利益誘導(earmarks)、起草上の曖昧さ、未定義の用語、裁量的な閾値は、バグではない ── それらは、競合する利害が合意に署名するための仕組みである。あらゆる法令が実行可能なコードへとコンパイルされ、あらゆる改正が提案者まで遡れる公開コミットとなる体制は、これらの妥協を可読にする ── そして、立法を生み出す政治経済学は、可読性を選択しない。計算法学は、法体系のうち既にアルゴリズム的に機能している隅々で進歩を続けるだろう。それを大きく超えて広がる可能性は低く、監査者アーキテクチャは、その拡張に依存しないように設計されなければならない。

実務家はどこに位置し、ジュニアは何を学ぶか

上記の構造的コミットメントが意味を持つのは、最終的な利用者が人間である場合に限られる。各コミットメントは、実務家のために特定種類の判断を浮上させる ── どの争点となった命題から優先的に調査すべきか、監査者の不一致のうちどれが本当の誤りで、どれが取得証拠の不足にすぎないか、どのアトミックな主張が監査者のコーパスに含まれない権威に依拠しているか。これが「ヒューマン・イン・ザ・ループ」の段階であり、ここで専門知が結節する。システムは弁護士の上流に置かれるのであって、下流に置かれるのではない。

二つのスキルが構造的に重要となる。第一は優先順位付けである。監査者は、いかなる実務家にも追跡しきれないほどの数の争点を浮上させる。ワークリストが有用となるのは、ゲートに立つレビュアーが、控訴の趨勢を左右する判例と、形式上は正しいが論点として副次的な判例とを素早く見分けられる場合だけだ。これは判断であり、モデルからは移植できない。第二はモデルの推論をデバッグすることである。監査者がシンセサイザーと意見を異にしたとき、その失敗の所在は、シンセサイザー側にあることもあれば、監査者の取得証拠にあることもあれば、不適格なアトミック主張を生んだ分解工程にあることもある。どれかを見極めるには、実務家が証拠の連鎖を読み、どこが破綻しているかを見抜く必要がある。いずれのスキルも、ジュニアが指導下で判例を読みながら身につけてきたのと同じ判断力である。

これがトレーニング・パイプラインに関する論点を明確にする。AIが「ジュニアを訓練してきた仕事」を吸収してしまうという悲観論は、アーキテクチャが自律的であることを前提としている ── すなわち、磨き上げられたメモを生成するシステムが、かつてそのメモを起案していたジュニアを置き換える、という像である。シンセサイザー・監査者アーキテクチャは構造的にこれと異なる。生成するのは磨き上げられたメモではなく、人間レビュアー用のワークリストである。ワークリストを優先順位付けし、争点の権威を検証し、どの論点が残るかを判断する作業 ── これこそが有能なシニアを育てる作業である。監査者の所見を選別、検証、上申(エスカレート)することを役割とするジュニアは、法律実務に従事している ── 場合によっては、ゼロから初稿を起案していた以前のジュニア像よりも、より直接的にそうしている。架構が「ジュニアに所見を提示するため」に展開されるなら、パイプラインは存続する ── 「ジュニアを自律的な出力で置き換えるため」ではない形で。

この体制において専門家の知見の価値は減じない。それは結節入力となる。システムは概要書(skeleton)をアトミックな主張に分解し、各主張を取得した権威と照合することはできる。しかし、どの主張が法理上の支柱であるか、控訴院がどの法系列を発展させる可能性が高いか、どの議論が一流のシルクの時間に値するか ── そうした判断を下すことはできない。これらの判断は実務家のもとに残り、それを的確に行える実務家であることの価値は、下がるどころか上がっていく。