【4月11日 東方新報】現在我々がAI大規模モデルに照会して得た「権威ある回答」は、すでに商業的な「グレーゾーン産業」によって恣意的に汚染されている可能性が高い。
中国中央電視台(CCTV))の「3・15ナイトショー」(国際消費者権益デー特別番組)によると、「GEO」という名のソフトウェアが、「AIに『毒を盛る』」「AIを言いなりにする」ことができると言っている。特定のクライアントの商品をAIの回答で上位に表示させ、「おすすめのヒット商品」にすることが可能だと宣伝しているという。
■コーパス(文章や会話の集積データ)汚染、AIには耐え難い重荷
このソフトウェアの操作ロジックは複雑ではない。クライアントに関連する宣伝・プロモーション記事をAIに継続的に大量に与えることで、AIプラットフォームにそれを学習させ、入力させ、収集させる操作だ。AI大規模モデルの核心的な仕組みが機械学習であるため、このような恣意的な情報の入力は、モデルの出力結果に直接的な影響を及ぼす。
専門家にとって、このような形で目先の利益を追求するやり方は、AIの根幹を揺るがすもので、断じて容認できないものだ。「国研新経済研究院」の創立院長・朱克力(Zhu Keli)氏は、このような行為は、AI大規模モデルの信頼性を根底から覆すもので、その技術的価値と社会的応用価値に多重的で取り返しのつかない損害を与えるものだと強調した。
さらに朱氏は「AI大モデルの核心的な競争力は、膨大で真実かつ多様なコーパス(言語資料)に基づいて学習と推論を行うことにあり、その回答の客観性と正確性が存在基盤だ。しかし、今回報道されたような恣意的なコーパス汚染行為は、モデルの情報基盤に大量の虚偽で質が低く画一的な商業情報を混入させ、モデルのコーパスにおける真実のバランスを崩してしまう。その結果、AI大規模モデルはその推論過程で情報の真偽や価値を見分けることが困難になり、明らかに商業的に偏向した非客観的な内容を出力するようになる。そして警戒すべきは、この損害が単発の回答で終わらないことだ。情報が繰り返し入力されることで連鎖的に伝播し、層を重ねて蓄積され、ユーザーのAIに対する信頼を徐々に蝕んでいくことだ」と付け加えた。
朱氏は「ユーザーがAIモデルの『標準回答』が実は商業広告であることを繰り返し発見すれば、次第にAIモデルに対する信頼を失い、ひいてはAI大規模モデルの情報検索、意思決定補助、知識普及など、数多くのシーンにおける実用化に大きな悪影響を及ぼすだろう。もしコーパス汚染行為が規模化すれば、業界内で好ましからざる追随現象を引き起こす恐れがある」と危惧している。朱氏は「大量の虚偽情報がAIの訓練と推論のプロセスに流れ込めば、異なるプラットフォームのAIモデルの全てで回答が歪むという問題を引き起こし、最終的にはAI大規模モデル産業全体が『信頼危機』に陥るだろう」と警告した。
■AIが「中毒」したらどうするか?
実際のところ、AIのデータ汚染問題は大規模モデルの登場に伴って生じたものではないが、大規模モデルの隆盛が問題の規模、影響、複雑さを著しく拡大させた。このため、「生成型人工知能サービス管理暫行弁法」や新版「データ安全法」ではすでにAIの訓練データを監督対象にしている。
工信部情報通信経済専門家委員会の盤和林(Pang Helin)委員の見方では、AI大規模モデルの信頼性問題の原因は、1つにはインターネット上に虚偽情報が存在すること、もう1つはAI自体にもハルシネーション(AIの幻覚)が存在し、自らデータを捏造することがあることだ。
しかし、このようなデータ汚染に対して、技術的な対策が全く無いわけではない。朱院長は「現在の技術体系にはすでに相応の対抗手段が備わっており、技術の反復更新や体系的な設計を通じて、プロセス全体をカバーする防御メカニズムを確立し、この種の不正行為を効果的に識別・遮断することが可能だ」と指摘する。
朱氏はさらに分析を進め、AI大規模モデルのコーパス選別と比重計算のアルゴリズムを最適化することで、多次元的なコーパス価値評価システムを構築できると述べた。内容の真実性、独自性、情報密度、拡散シナリオなど複数の次元からコーパスを動的に評価し、大量に発生する画一的で価値が低い、商業色が強い宣伝記事に対して、その重み付けを下げる、あるいは排除することで、虚偽コーパスによるモデルへの干渉を発生源から減らすことが可能だとしている。
また、朱氏は「リアルタイムのコーパス出所追跡と異常検知技術を導入し、短時間に集中して現れる同一のキーワードや商業情報を含む内容の出所を追跡することもできる」と強調し、「その発信主体と伝播経路を識別することで、異常な発信行為に対してリアルタイムで警告を発することが可能だ」と述べた。
さらに、単一の情報源による意図的なミスリードを避けることも重要だとして、AIモデルの推論検証能力を強化し、回答生成時に核心的な情報について複数の情報源による交差検証を行うことを提案している。
一方、盤委員の方は、技術的な対抗だけでは不十分だと考えている。盤氏は「我々が対策を講じるべきは、おそらく『GEO』のようなソフトウェアではなく、中国語インターネット全体の情報の真実性の問題かもしれない。これはエコシステムに関わる大きな問題であり、インターネット上の虚偽情報が存在する限り、AIはやはり有害な情報を収集し続けるだろう」と危惧している。
盤氏の見方では、根本的な解決策はやはりインターネットの情報環境を整備し、権威ある情報発信の経路を確立することにあるという。例えば米国では、FDA(食品医薬品局)が健康食品の多くの問題について報告書を発表しているが、もしAIがこの種の科学的データを取得する際に、優先的にFDAから得るように設定すれば、客観的な見解が形成されるだろうと見ている。
朱氏は「発生源でのスクリーニング・プロセス監視・結果検証・閉ループでの対策」という全てのチェーンをカバーする体系の構築を提案している。防御メカニズムと不正行為の技術的進化とを同調させ、コーパスの汚染行為を根本から抑制し、AI大規模モデルの内容の真実性と信頼性を守ることができると強調している。(c)東方新報/AFPBB News
