アマゾン、画期的なAI音声モデルNova Sonicを発表！価格も競争力抜群！

AIbase基地

公開日AIニュース · 1 分で読めます · Apr 9, 2025

アマゾンは先日、最新のAI音声モデル「Nova Sonic」を発表しました。これは同社の人工知能音声分野における重要な進歩を示すものです。Nova Sonicは、音声入力を迅速に処理し、自然で滑らかな音声出力を生成できます。速度、認識精度、会話品質において、OpenAIやGoogleなどの業界リーダーと同等のトップレベルに達しています。

他のAI音声モデルと比較して、Nova Sonicはコストパフォーマンスに優れています。OpenAIのGPT-4oよりも約80％安い価格設定となっています。この経済的なソリューションは、企業がAIアプリケーションを開発する上で、より魅力的な選択肢となります。Nova SonicはアマゾンのBedrock開発者プラットフォームを通じてサービスを提供しており、革新的な双方向ストリーミングAPIインターフェースを採用することで、企業に強力な開発サポートを提供します。

さらに驚くべきことに、Nova Sonicはユーザーリクエストのインテリジェントな処理において優れた性能を発揮します。リアルタイムでインターネットから情報を取得する必要がある場合、独自のデータの解析が必要な場合、外部アプリケーションでタスクを実行する必要がある場合など、ユーザーのニーズを満たすために適切なツールを選択して柔軟に対応できます。この能力により、Nova Sonicは多くのAI音声モデルの中で際立っています。

ユーザーとの双方向の会話において、Nova Sonicは発言のタイミングを正確に把握し、ユーザーの停頓や間を考慮することで、自然で滑らかな会話を保証します。さらに、音声テキスト変換機能も備えており、開発者はこれらのテキスト情報を活用して様々なアプリケーションの開発と最適化を行うことができます。

アマゾンAGI部門の首席科学者であるロヒット・プラサード氏は、Nova Sonicの一部技術がアップグレード版デジタルアシスタントAlexa+に既に適用されていると述べています。この新モデルの発表は、アマゾンの人工汎用知能（AGI）戦略における重要な一歩であり、同社は今後、画像、ビデオ、その他の物理世界の知覚データなどを処理できるマルチモーダル理解に対応したAIモデルを発表する予定で、AIアプリケーションの可能性をさらに広げていく予定です。

Nova Sonicの発表により、アマゾンはAI音声分野においてより重要な市場地位を確立し、企業や開発者に多くの選択肢と可能性を提供しました。

NovaSonic AI音声モデルアマゾンBedrock 双方向型API

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

韓国の2人の大学生が開発したAI音声モデル「Dia」、GoogleのNotebookLMに挑戦

AI音声生成分野の競争が激化する中、韓国の2人の大学生が共同で開発したAI音声モデル「Dia」が登場し、GoogleのNotebookLMに匹敵する機能を謳っています。AI分野での経験は浅いものの、わずか3ヶ月でオープンアクセスな音声生成ツールを開発することに成功しました。Diaの学習にはGoogleのTPU Research Cloudプロジェクトが利用されており、研究者向けに…

Apr 23, 2025

120

アマゾン、次世代AI音声モデルNova Sonicを発表、Alexa+のパフォーマンス向上

Apr 9, 2025

100

MiniMax Audio、Speech-02音声モデルを発表 - 一度に20万文字の入力に対応

注目を集めるオーディオ技術革新企業MiniMax Audioは、最新のSpeech-02シリーズ音声モデルを発表しました。30種類以上の音声に対応し、一度に20万文字の入力が可能です。より自然でスムーズ、そして便利なオーディオ体験を提供します。今回の更新の最大の特長は、新しいSpeech-02シリーズです。公式発表によると、このシリーズは多言語対応能力が大幅に向上し、様々な言語の発音をより正確に、より自然に表現できます。さらに驚くべきことに、Speech-

Apr 2, 2025

3.3k

Orpheus TTS：人間らしい感情表現を備えた次世代TTSモデル

3月19日、Orpheus TTSというオープンソースのテキスト読み上げ（TTS）モデルが正式に発表されました。このモデルは、人間に近い感情表現、自然で滑らかな音声、超低遅延のリアルタイム出力ストリームといった特徴により、瞬く間に注目を集めています。Orpheus TTSはリアルタイムでの会話シーンにおいて優れたパフォーマンスを発揮し、スマート音声インタラクションに新たなブレークスルーをもたらす可能性を秘めています。Orpheus TTSは低遅延と高い感情表現を重視しており、主な特徴は以下の通りです： - **超低遅延**:デフォルトの遅延は約2…

Mar 20, 2025

510

AI音声モデル搭載のポッドキャストプラットフォームPodcastleが450種類以上の音声を提供

急速に発展を続けるポッドキャスト業界において、Podcastleプラットフォームは先日、最新のAIテキスト読み上げモデルAsyncflow v1.0を発表しました。この新しいモデルは、ユーザーに450種類以上のAI音声を提供するだけでなく、開発者向けにAPIインターフェースも公開し、テキスト読み上げ機能を彼らのアプリケーションに直接統合することを可能にしています。Podcastleの創設者Arto Yeritsyan氏は、同社が常にテキスト読み上げ機能の開発を目指してきたと述べています。

Mar 4, 2025

マスク氏、新型Grokアプリを発表：音声モードの体験が大幅に向上

Feb 28, 2025

Google NotebookLMに対抗！音声生成モデルPlayDialog：対話型ポッドキャスト、ナレーション生成が可能に

この度、Play AIは最も野心的な製品であるPlayDialogベータ版を正式にリリースしました。対話型のポッドキャスト音声の生成が可能です。このエンドツーエンドのAI音声モデルは、対話履歴のコンテキストを利用して、トーン、感情、速度を調整し、より自然な音声合成を実現します。これは、人間と機械の対話の新たな高みを示すものです。PlayDialogは、ナレーション、音声吹き替え、ポッドキャスト合成など、リアルな対話体験の作成に特に適しており、ビジネス環境においても没入型の1対1音声を提供できます。

Nov 13, 2024

3.0k

俳優組合SAG-AFTRAとAI企業が歴史的合意：俳優の音声データ保護基準を確立

全米映画俳優組合（SAG-AFTRA）は先日、AI音声企業Ethovoxと画期的な合意に署名し、俳優の音声データのAI利用に関する明確な基準を定めました。この合意は、エンターテインメント業界におけるAI技術の利用のための信頼できる枠組みを提供するだけでなく、俳優の権利保護のために新たな基準を打ち立てました。合意の内容によると、俳優は二重の収益保障を受けます。一つは音声収録の前払い料金、もう一つはAI音声モデルの利用から生じる継続的な収益分配です。さらに重要なのは、音声データのあらゆる利用について...

Nov 1, 2024

1.3k

研究：AI音声モデルは帰納的推論で優れる一方、演繹的推論で苦戦

カリフォルニア大学ロサンゼルス校とアマゾンの研究者らが、大規模言語モデル（LLM）の推論能力を詳細に分析した最新の研究。帰納的推論と演繹的推論という2つの能力を初めて体系的に区別し、AIシステムにとってそれぞれの難易度を探った。画像出典：AI生成画像、画像ライセンス提供元Midjourney 帰納的推論とは、具体的な観察から一般的な法則を導き出すことであり、演繹的推論とは、一般的な規則を特定の事例に適用すること。研究の目的は、どちらの推論能力が大型…

Sep 24, 2024

1.1k

騰訊開発！AI音声モデルEzAudio AI、テキストをリアルな音声に変換

先日、ジョンズ・ホプキンス大学とテンセントAIラボが共同で、EzAudioという新しいテキスト音声変換モデルを発表しました。この技術は、前例のない効率性と高品質でテキストを音声に変換することを約束しており、人工知能と音声技術の大きな飛躍を意味します。EzAudioの動作原理は、従来のスペクトログラムではなく、音声波形の潜在空間を利用することにあります。この革新により、EzAudioは高時間分解能で動作し、追加のニューラルボコーダーを必要としません。EzAudioのアーキテクチャはEzAuと呼ばれます。

Sep 19, 2024

8.1k

AIニュース

AIデイリー

AIタイムライン

Alハードウェアです

最新事例

画像コレクション

ビデオコレクション

オーディオコレクション

コンテンツコレクション

最新チュートリアル

AIプロダクトランキング

AIトラフィック成長ランキング

AIトラフィック減少ランキング

AI週間ランキング

アメリカ合衆国

中国

インド

ブラジル

画像生成

パーソナルアシスタント

キャラクター生成

ビデオ生成

AIプロジェクトランキング

AIプロジェクト成長ランキング

AI開発者ランキング

AI組織ランキング

Deepseek

TTS

LLM

ChatGPT

概要