人工知能の急速な発展に伴い、国際的な研究チームが欧州AI言語モデルの発展に向けた道を切り開いています。彼らはMOSEL(Massive Open-source compliant Speech data for European Languages)というプロジェクトを発表し、EUの24の公用語に対応した包括的なオープンソース音声データセットを作成しました。この取り組みは、英語のデータセットと大手テクノロジー企業の専有システムが支配的な現状に挑戦し、欧州のオープンAI言語モデルの発展を促進することを目的としています。
MOSELプロジェクトは、CommonVoice、LibriSpeech、VoxPopuliなどの著名なプロジェクトを含む18の異なるソースからの音声データを収集しました。この巨大なデータベースには、転写付きの音声録音と未ラベルのオーディオデータが含まれており、特に貴重な505,000時間の転写済みデータが含まれています。
しかし、データの言語間の分布は極めて不均衡です。英語は437,000時間以上のラベル付きデータを持つ一方、マルタ語やアイルランド語などの言語は数時間しかデータがありません。資源の少ない言語のデータ状況を改善するために、研究チームは革新的な方法を採用しました。OpenAIのWhisper AIモデルを利用して、追加の441,000時間の未ラベルオーディオデータを自動転写したのです。
研究チームは、自動転写は完璧ではないものの、人工転写データが不足している言語に大量のトレーニング資料を提供できると説明しています。生成された転写テキストはクリエイティブ・コモンズCC-BYライセンスで公開されており、出典を明記すれば自由に使用できます。
自動転写の課題は、マルタ語の例で特に顕著です。Whisperモデルはマルタ語を処理する際の単語誤り率が80%を超えており、平均して5単語のうち4単語が誤認識されることを意味します。これは、一部の言語が自動処理において依然として大きな課題に直面していることを浮き彫りにしています。
それにもかかわらず、研究チームはこれらの自動転写がさらなる改善の出発点になると考えています。彼らは、代表性が不足している言語についてより多くのデータを収集し、MOSELデータベースを継続的に改善していく予定です。
MOSELプロジェクトの全データセットはGitHubで無料で提供されており、研究者や開発者が欧州言語の音声データに簡単にアクセスできるようにすることを目的としています。このオープンで共有された取り組みは、研究界の協力精神を表すだけでなく、欧州AI言語モデルの発展に新たな活力を注入しています。
MOSELプロジェクトの意義はデータ自体だけにとどまりません。それは、欧州がAI分野における技術的自立を目指す努力を表しており、より多様で包括的なAI言語モデルの発展を促進すると期待されています。多言語のオープンソースデータを提供することで、MOSELは小言語のAI時代における保護と発展に貴重な資源を提供し、AI技術における言語処理の偏見や不平等を軽減するのに役立ちます。
MOSELデータベースの継続的な改善と拡張に伴い、欧州言語に基づいたAIアプリケーションやサービスがさらに増えることが期待されます。これは、欧州のデジタル経済の発展を促進するだけでなく、世界のAI言語技術の多様性にも重要な貢献をするでしょう。