
メリーランド大学とマイクロソフトの科学者は、大規模言語モデル (LLM) のテストを実施し、ボットが個々の自然言語をどのように処理するかを確認しました。彼らは 26 の言語を調査しました。 OpenAI o3-mini-high、Google Gemini 1.5 Flash、Qwen2.5 (7B および 72B)、Llama 3.1 (8B)、Llama 3.3 (70B)、および DeepSeek-R1 モデルがテストに関与しました。彼らはクエリ (いわゆるプロンプト) を作成しましたが、それは短くおざなりなものではなく、非常に広範で状況に応じたもの (最大 100,000 トークン以上) でした。この実験の結果 (クエリの理解、応答品質) に基づいて、OneRuler ベンチマークを公開しました。効果?間違いなく大きな驚きです。ポーランド語が1位になりました。私たちの母国語は、当然ながら AI トレーニングの分野で主要な言語である英語を追い抜き、このランキングでは 6 位にとどまりました。
プロンプトにおける個々の言語の効果:
- ポーランド人 88%
- フランス人 87%
- イタリア人 86%
- スペイン語 85%
- ロシア人 84%
- 英語 83.9%
- ウクライナ人 83.5%
- ポルトガル語 82%
- ドイツ人 81%
- オランダ人 80%
- ノルウェー人 79%
- スウェーデン人 78%
- デンマーク人 77%
- ハンガリー人 76%
- フィンランド人 75%
- チェコ人 73%
- 日本人 72%
- ベトナム人 71%
- ペルシャ語 70%
- セルビア人 69%
- 韓国人 66%
- ヒンディー語 65%
- 中国人 62.1%
- タミル語 61%
- スワヒリ語 55%
- 英語 45%
