テクノロジーメディアの macstories は、Appleが新たに発表した Speech API に関する投稿を公開し、業界全体で大きな注目を集めました。34分間、サイズが7GBに達する4Kビデオファイルの文字起こしテストの結果、Appleの新しい Speech API はわずか45秒で完了し、他の類似ツールと比べて大幅に高速です。対照的に、OpenAIのWhisperは101秒かかりますので、Appleの技術優位性が明らかであり、約55%の効率向上が実証されました。

image.png

Appleは2025年のグローバル開発者会議WWDCでこのSpeechフレームワークを初めて発表しました。このフレームワークにはSpeechAnalyzerとSpeechTranscriberの2つのモジュールが含まれています。この技術の登場により、Appleは音声処理分野におけるさらなる進展を示しました。特に、処理速度と正確性の向上が際立っています。

具体的なテストでは、メディアは新モジュールに基づいて開発されたYapアプリを使用して文字起こしを行いました。さまざまなツールのパフォーマンスを比較した結果、Yapは45秒という速さで文字起こしが行われ、市場で最も優れた選択肢となりました。相対的に、MacWhisper(OpenAIのWhisperオープンソース音声文字起こしモデルに基づく)は1分41秒かかり、VidCapは1分55秒です。さらに古いバージョンのMacWhisper(V2)では、3分55秒もかかりました。

すべてのテストツールは専門的な名詞の認識においてある程度の誤差が見られましたが、「AppStories」の認識などです。しかし、Yapのローカル演算の利点により、複数のビデオファイルを処理する際の効率がより顕著に高まっています。毎週の作業時間を計算することで、ユーザーは作業効率を大幅に向上させることができます。

image.png

この技術の急速な発展により、ビデオコンテンツ制作者に利便性を提供するとともに、今後の応用シーンの拡張にも基盤を築きました。今後、AI技術の進化とともに、Appleは音声認識分野でさらに革新的なソリューションを提供し、ユーザーエクスペリエンスを向上させる可能性があります。

要点:

🌟 Appleの新しいSpeech APIは、34分間の4Kビデオをわずか45秒で文字起こし、競合他社を凌駕しています。

⏱️ OpenAIのWhisperと比べると、Appleの技術は約55%の効率を向上させています。

📈 ローカル演算の優位性により、Yapは複数のビデオファイルの処理で高い効率を実現し、多くの時間を節約します。