アメリカのスタートアップ企業Useful Sensorsが、Moonshineというオープンソースの音声認識モデルを発表しました。Moonshineは、オーディオデータをより効率的に処理するように設計されており、OpenAIのWhisperと比較して、計算資源の消費が少なく、処理速度が5倍速くなっています。この新しいモデルは、リソースの限られたハードウェアでのリアルタイムアプリケーション向けに設計されており、柔軟なアーキテクチャを備えています。

image.png

Whisperがオーディオを固定の30秒のセグメントに分割して処理するのに対し、Moonshineは実際のオーディオの長さに合わせて処理時間を調整します。そのため、短いオーディオセグメントの処理に優れており、ゼロパディングによる処理オーバーヘッドを削減します。

Moonshineには、パラメータ数が2710万個の小型版Tinyと、6150万個の大型版Baseの2つのバージョンがあります。一方、OpenAIの同等のモデルはパラメータ数が多く、Whisper tiny.enは3780万個、base.enは7260万個です。

image.png

テストの結果、MoonshineのTinyモデルはWhisperと同等の精度を達成しながら、消費する計算資源が少ないことが示されました。様々なオーディオレベルや背景ノイズにおいて、Moonshineの両バージョンはWhisperよりも単語誤り率(WER)が低く、高い性能を示しました。

研究チームは、Moonshineは1秒未満の非常に短いオーディオセグメントの処理において、まだ改善の余地があると指摘しています。これらの短いオーディオはトレーニングデータにおける割合が小さいため、このようなセグメントのトレーニングデータを増やすことで、モデルの性能が向上する可能性があります。

さらに、Moonshineのオフライン機能により、新しいアプリケーションシナリオが開かれています。これまでハードウェアの制約により実現できなかったアプリケーションが、実現可能になっています。高電力消費のWhisperとは異なり、Moonshineはスマートフォンや小型デバイス(Raspberry Piなど)での動作に適しています。Useful Sensorsは、Moonshineを利用して英西翻訳ツールTorreを開発中です。

MoonshineのコードはGitHubで公開されています。ただし、WhisperのようなAI転写システムは誤りを含む可能性があることに注意が必要です。いくつかの研究によると、Whisperはコンテンツ生成時に1.4%の確率で虚偽情報を含む可能性があり、特に言語障害のある人々の場合は誤り率が高くなることが示されています。

プロジェクト入口:https://github.com/usefulsensors/moonshine

要点:

🌟 Moonshineはオープンソースの音声認識モデルで、OpenAIのWhisperよりも5倍速い処理速度を実現します。

🔍 オーディオの長さに合わせて処理時間を調整できるため、短いオーディオセグメントに特に適しています。

🖥️ Moonshineはオフラインで動作するため、リソースの限られたハードウェアデバイスで使用できます。