
やあ皆さん、
これはさらに大きな発表になるはずだ。私がこの夏に取り組んだプロジェクトを 2 人のインターンと共有したいと思いました。私たちは、Google、OpenAI (Whisper)、Meta などのテクノロジー大手が事実上無視してきた問題に取り組みました。
🚫 問題
ご存知のとおり、キプロスでは公用語は標準ギリシャ語ですが、日常生活ではほとんどの人が標準ギリシャ語を話します。 キプロス語の方言。
ここで AI 音声テキスト変換アプリや AI 音声アシスタントを使おうとすると、大きく失敗します。大きなモデルでは方言を次のように扱います。 "ノイズ" または "悪いギリシャ語。" Meta の膨大な 1,600 言語モデルでさえ、それをサポートしていません。
💡 計画と現実
これは標準的な微調整作業になるだろうと考えました。
- ギリシャ語を手に入れる
wav2vecモデル。 - データセットをダウンロードします。
- GPU クレジットをいくつか消費します。
- 利益。
現実のチェック: あった いいえ データセット。既存の研究データは紛失、破損、または 35,000 ユーロのペイウォールの内側に閉じ込められていました。
🛠 解決策 (困難な方法)
データ = AI であるため、パイプライン全体をゼロから構築する必要がありました。私たちがやったことは次のとおりです。
- データの取得: 私たちはキプロスのテレビ、ラジオ、ポッドキャストを何時間もダウンロードしました。
- クラウドソーシング: 私たちはプラットフォームを構築しました (
voiceofcyprus.org) 地元の人々から実際の翻訳を集めます。 - 乱雑なデータ: 非常に不完全な音声データを使用してモデルのコンテキストを教えるために、あらゆる NLP トリックを使用しました。
私たちはすべてをオープンソース化しました。
https://huggingface.co/datasets/Elormiden/RIK_Cypriot_Collection_Dataset
https://huggingface.co/datasets/Elormiden/RIK_Cypriot_News_Dataset
🚀 結果
わずか 6 週間で、 150 ドルの GPU クレジット、キプロス方言を実際に理解する小さなモデルをトレーニングしました。
https://huggingface.co/Elormiden/bert-base-cypriot-greek
まだ本番環境としては完璧ではありませんが、最初に動作するパイプラインです。私たちは、この課題がビッグテックの予算なしでも解決可能であることを証明しました。これにより、研究者や地元の開発者が最終的に地元の人々を理解できる島用の音声 AI を構築するための基盤が提供されます。
要点: 世界最高の建築を作ることもできますが、 データなし = AI なし
プロジェクトの完全な内訳はここで確認してください。 https://youtu.be/zN_FMIWRSLA
ギリシャ語話者向けに、AI 翻訳版の説明を以下に示します。 https://youtu.be/hcoXFNVP6L4
