メリーランド大学とマイクロソフトの科学者は、大規模言語モデル (LLM) のテストを実施し、ボットが個々の自然言語をどのように処理するかを確認しました。彼らは 26 の言語を調査しました。 OpenAI o3-mini-high、Google Gemini 1.5 Flash、Qwen2.5 (7B および 72B)、Llama 3.1 (8B)、Llama 3.3 (70B)、および DeepSeek-R1 モデルがテストに関与しました。彼らはクエリ (いわゆるプロンプト) を作成しましたが、それは短くおざなりなものではなく、非常に広範で状況に応じたもの (最大 100,000 トークン以上) でした。この実験の結果 (クエリの理解、応答品質) に基づいて、OneRuler ベンチマークを公開しました。効果?間違いなく大きな驚きです。ポーランド語が1位になりました。私たちの母国語は、当然ながら AI トレーニングの分野で主要な言語である英語を追い抜き、このランキングでは 6 位にとどまりました。

プロンプトにおける個々の言語の効果:

  1. ポーランド人 88%
  2. フランス人 87%
  3. イタリア人 86%
  4. スペイン語 85%
  5. ロシア人 84%
  6. 英語 83.9%
  7. ウクライナ人 83.5%
  8. ポルトガル語 82%
  9. ドイツ人 81%
  10. オランダ人 80%
  11. ノルウェー人 79%
  12. スウェーデン人 78%
  13. デンマーク人 77%
  14. ハンガリー人 76%
  15. フィンランド人 75%
  16. チェコ人 73%
  17. 日本人 72%
  18. ベトナム人 71%
  19. ペルシャ語 70%
  20. セルビア人 69%
  21. 韓国人 66%
  22. ヒンディー語 65%
  23. 中国人 62.1%
  24. タミル語 61%
  25. スワヒリ語 55%
  26. 英語 45%

Share.