アマゾン、100以上の言語に対応する新しいASRシステムを発表

站长之家
この記事はAIbaseデイリーからのものです
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
TikTokは、『2025年第1四半期不正行為対策データレポート』を発表し、ブラック産業チェーン対策において顕著な成果を上げたことを明らかにしました。レポートによると、TikTokは第1四半期に、水軍、詐欺、不正誘導に関与した260万件の不正アカウントを禁止し、違法犯罪の疑いのある情報を関係当局に報告しました。
音声AI分野で注目を集めた後も、OpenAIは研究開発を継続しています。ChatGPTの開発元である同社は、新たに3つの音声モデルを発表しました。gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-ttsです。中でも注目されているのがgpt-4o-transcribeです。これらの新しいモデルは現在、
ElevenLabsが、画期的な音声テキスト変換モデル「Scribe」を発表しました。英語における正確度は96.7%に達し、従来のモデルを凌駕する高い精度を実現しています。
音声認識分野において、中国語認識技術の発展は常に注目を集めています。最近、小紅書(Xiaohongshu)のFireRedチームは、全く新しいオープンソースの音声認識モデル——FireRedASRを発表しました。この大規模モデルに基づいた音声認識システムは、複数の標準的なテストセットで優れた成績を収め、中国語音声認識技術の大きな飛躍を意味しています。FireRedASRの主要指標は文字誤り率(CER)であり、この指標が低いほど、モデルの認識精度が高いことを示します。最近の公開テストで、Fi
近年、マルチモーダル大規模言語モデル(MLLM)は目覚ましい進歩を遂げ、特に視覚とテキストモーダルの統合において顕著な成果を上げています。しかし、ヒューマンコンピュータインタラクションの普及に伴い、音声モーダルの重要性もますます高まっており、特にマルチモーダル対話システムにおいては不可欠となっています。音声は情報伝達の重要な媒体であるだけでなく、インタラクションの自然性と利便性を大幅に向上させる役割も担っています。しかし、視覚データと音声データは本質的に異なるため、これらをMLLMに統合することは容易ではありません。例えば、視覚データは空間情報を伝達する一方、音声データは時間軸上の情報を伝達します。
本日、豆包大規模モデル公式より、豆包大規模モデルの8つの重要な瞬間が発表されました!2024年5月15日の初公開以来、豆包大規模モデルは目覚ましい発展を遂げ、230日間にわたる急速な成長を遂げてきました。初期の言語習得から、世界を探求する段階を経て、クリエイターのために幻想的な夢の世界を描くまで、その道のりは挑戦と成果に満ち溢れていました。1. 音声認識と感情表現のブレークスルー 豆包大規模モデルは7月、音声認識分野において大きなブレークスルーを達成しました。20種類以上の方言が混ざった会話も理解できるようになり、聞きながら考える能力も備えています。