人工知能技術の急速な発展に伴い、音声は私たちが機械とコミュニケーションを取る主要な手段となっています。フランスのスタートアップ企業であるMistralは、正式にその最初のオープンソース音声モデルであるVoxtralをリリースしました。このモデルは、大手企業の閉鎖的なシステムの独占を打破し、開発者により柔軟で経済的な代替手段を提供することを目的としています。

Mistralは、Voxtralが実際のアプリケーションで「本格的に使える音声スマート」を提供できる初めてのオープンソースモデルであると述べています。これは、開発者が低コストのオープンソースシステムと効率的だが閉鎖的な解決策の間で困難な選択をしなくて済むことを意味します。Voxtralは「半分以下の価格」の利点を持ち、企業にとってより経済的な選択肢を提供します。

image.png

Mistralによると、Voxtralは最大30分間の音声を変換できます。大型言語モデルMistral Small3.1を基盤としているため、ユーザーは最大40分間の音声コンテンツを理解することができます。ユーザーは音声コンテンツに関連する質問をしたり、要約を作成したり、音声コマンドをリアルタイムの操作に変換したり(APIの呼び出しや特定の機能の実行など)することができます。さらに、Voxtralは複数言語に対応しており、英語、スペイン語、フランス語、ポルトガル語、ヒンディー語、ドイツ語、オランダ語、イタリア語などの言語を理解および変換できます。

Mistralは「音声理解モデル」の2つのバージョンを提供しています。まず、Voxtral Smallで、240億パラメータがあり、製品レベルでの展開に適しており、ElevenLabs Scribe、GPT-4o-mini、Gemini2.5Flashなどと競合します。次に、Voxtral Miniで、30億パラメータがあり、ローカルおよびエッジでの展開に適しています。さらに、超経済的な3億パラメータのモデルであるVoxtral Mini Transcribeも用意されており、これは録音シーンに最適化されており、OpenAIのWhisperを上回る性能を約束しながら、価格はその半分以下です。

ユーザーはHugging Faceから無料でVoxtralのAPIをダウンロードでき、またはMistralのチャットボットLe Chatでテストできます。会社の説明によると、APIの統合費用は1分あたり0.001ドルからです。今回のリリースは、Mistralが1か月前にリリースした推論モデルMagistralとタイミングを合わせたものです。これらのモデルは、問題を段階的に解決することで信頼性を高めます。

ヨーロッパのトップAI企業の一つとして、Mistralは一貫してオープンソースAIモデルの発展を推進してきました。注目すべきは、最近、Mistralが投資家と交渉中で、アブダビのMGXファンドを含む最大10億ドルの資金調達を計画しているというニュースです。