AIBase
ホーム
AIニュース
AIツール
AIモデル
MCP
AIサービス
AI計算力
AIチュートリアル
JA

AIニュース

もっと見る

SALMONNフレームワーク:大規模言語モデルの汎用聴覚能力拡張

SALMONNは、オーディオテキスト多様な大規模言語モデルフレームワークであり、大規模言語モデルの汎用聴覚領域における理解と処理能力の拡張を目指しています。非音声BEATsオーディオエンコーダ、OpenAI Whisperフレームワークの音声エンコーダ、ウィンドウレベルQ-Formerなどのコンポーネントを統合し、高い時間分解能を実現することで、オーディオテキストのアライメントを可能にします。活性化調整段階を経て、SALMONNはオーディオ字幕、音声翻訳などのタスクで競争力のある性能を示し、汎用聴覚能力を実証しています。

4.3k 4 日前
SALMONNフレームワーク:大規模言語モデルの汎用聴覚能力拡張
AIBase
未来を力づける、あなたの人工知能ソリューションシンクタンク
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
ビジネス協力サイトマップ