AIBase
ホーム
AIニュース
AIツール
AIモデル
MCP
AIサービス
AI計算力
AIチュートリアル
JA

AIニュース

もっと見る

通義がCoGenAVマルチモーダル音声表現モデルを発表:音と映像の同期認識が可能に

​先日、通義大モデルはCoGenAVを公開しました。これは音声と映像の同期という新しいアイデアに基づき、音声認識技術を革新しました。従来の音声認識はノイズ環境下でのパフォーマンスに課題がありましたが、CoGenAVは代わりに音声-映像-テキスト間の時系列対応関係を学習し、より堅牢で汎用的な音声表現フレームワークを構築しました。これにより音声認識タスク(VSR/AVSR)、音声復元タスク(AVSS/AVSE)、音声同期タスク(A'

8.2k 4 日前
通義がCoGenAVマルチモーダル音声表現モデルを発表:音と映像の同期認識が可能に
AIBase
未来を力づける、あなたの人工知能ソリューションシンクタンク
English简体中文繁體中文にほんご
友情链接:
AI Newsletters AI ToolsMCP ServersAI NewsAIBaseLLM LeaderboardAI Ranking
© 2025AIBase
ビジネス協力サイトマップ