Nexa AI、エッジデバイス向け高速音声言語モデルOmniAudio-2.6Bを発表
Nexa AIは先日、エッジデバイスの高効率展開ニーズに対応する、新しい音声言語モデルOmniAudio-2.6Bを発表しました。従来の自動音声認識(ASR)と言語モデルを別々に構成するアーキテクチャとは異なり、OmniAudio-2.6BはGemma-2-2b、Whisper Turbo、カスタムプロジェクターを統合フレームワークに統合しています。この設計により、従来システムの各コンポーネント間の接続による非効率性と遅延が解消され、特に計算リソースが限られている状況に最適です。