中国のAIモデルに見られる“自己検閲”とは何か？研究で見えてきたその実態

中国のデジタル検閲に関して語られる話は、ひどく退屈か、あるいは非常に興味深いかのどちらかである。多くの場合、人々はいまだに20年前と同じ論点を繰り返し、中国のインターネットは作家ジョージ・オーウェルの小説『1984年』の世界のようだと語る。だがときおり、中国政府が新興技術をどのように統制しているのかについて新たな発見があり、検閲の仕組みが絶えず姿を変えながら進化していることが浮かび上がるのだ。

スタンフォード大学とプリンストン大学の研究者が発表した、中国の人工知能（AI）に関する新たな論文は後者にあたる。研究チームは、政治的に問題視されやすい145の同一の質問を、中国の大規模言語モデル（LLM）4種と米国のモデル5種に投げかけ、その回答を比較した。さらに同じ実験を100回繰り返した。

今回の調査における主な発見は、このテーマに関心を向けてきた人にとって驚くものではない。中国のモデルは米国のモデルに比べ、はるかに多くの質問への回答を拒否したのである。DeepSeekは36％、バイドゥ（百度）の文心一言（ERNIE Bot）は32％の質問への回答を拒否したのに対し、OpenAIのGPTやメタ・プラットフォームズのLlamaの拒否率は3％未満であった。さらに、明確に拒否しなかった場合でも、中国のモデルは回答が短く、内容も米国モデルより不正確である傾向が見られた。

なかでもこの論文の興味深い点は、事前学習と事後学習の影響を切り分けようとしたことにある。これにより、中国モデルの偏りがどこから生じているのかを明らかにしようとしたのだ。中国モデルで見られる偏りは、開発者が手動で介入し、政治的に問題視されやすい質問に答えないようにするよう調整した結果なのか、それとも、すでに厳しく検閲された中国のインターネット上のデータで学習したことによるものなのかということだ。

「中国のインターネットは何十年にもわたって検閲されてきました。そのため、多くのデータが欠けています」と、この論文の共著者であり、長年オンライン検閲を研究してきたスタンフォード大学の政治学の教授ジェニファー・パンは語る。

パンらの研究結果は、AIモデルの応答において、学習データの影響はそれほど大きくなく、手動による介入のほうがより影響を与えている可能性を示している。理論上はより多様な情報源を含んでいるはずの英語で回答する場合であっても、中国のLLMの回答にはより強い検閲がかかっていたのだ。

DeepSeekやQwenに「天安門事件」について尋ねれば、検閲が働いていることはすぐにわかる。しかし、それが一般の利用者にどの程度影響しているのか、またこうした情報操作がどこから生じているのかを適切に見極めることは容易ではない。この研究が重要なのはそのためである。中国のLLMに見られる偏りを、定量的かつ再現可能なかたちで明らかにしているのだ。

今回、研究結果にとどまらず、著者らに研究手法や中国のモデルの偏りを調べる難しさについて尋ねた。さらにほかの研究者にも話を聞いて、AI検閲を巡る議論が今後どこへ向かうのかを探った。

嘘か、それとも幻覚か

AIモデルを研究する難しさのひとつは、「幻覚（ハルシネーション）」を起こす傾向があることだ。そのため、正しい答えを意図的に避けているのか、それとも本当に知らないから誤った内容を出力しているのかを見極めることができない場合がある。

パンが論文で挙げた例のひとつは、2010年にノーベル平和賞を受賞した中国の反体制活動家、劉暁波に関する質問である。ある中国モデルは「劉暁波は核兵器技術や国際政治への貢献で知られる日本の科学者である」と答えた。もちろん、これは事実ではない。しかし、なぜモデルはそのように答えたのか。間違った情報でユーザーを誘導し、劉暁波について知ることを妨げようとしたのか。それとも、学習データから劉に関する記述が削除されていたことから、AIが幻覚を起こしたのだろうか。

中国のAIモデルに見られる“自己検閲”とは何か？ 研究で見えてきたその実態 | WIRED.jp

中国のAIモデルに見られる“自己検閲”とは何か？研究で見えてきたその実態 | WIRED.jp