OpenAI、ChatGPTの音声モードをアップグレードし、より自然な対話を実現

AIbase基地

公開日AIニュース · 1 分で読めます · Jun 9, 2025

OpenAIは昨年発表したGPT-4に基づいて、再び高度な音声モードを大幅にアップデートしました。これにより、音声コミュニケーションがより自然になり、人類の対話に近づきました。この先進的な機能は、ネイティブのマルチモーダルモデルに依存しており、音声入力に素早く反応し、最短232ミリ秒で返答し、平均応答時間は320ミリ秒です。ほぼ人間の対話速度と遜色ありません。

今年の初めには、OpenAIがこの音声モードを若干改良し、割り込み頻度やアクセント処理を改善しました。今回の大幅アップデートでは、さらに音声返答のトーンが細やかになり、リズムもより自然になっています。特に、間歇や強調の処理が非常に生き生きとしています。また、更新後のシステムは、同情や皮肉など様々な感情をより正確に表現できるようになり、機械と人間のコミュニケーションに人情味を加えました。

ChatGPT OpenAI 人工知能 (1)

さらに興奮すべき点は、今回のアップデートで翻訳機能が追加されたことです。ChatGPTユーザーは簡単な指示だけで、対話中にリアルタイムで翻訳を行うことができます。停止指示を受けるまで続けられます。この機能の提供により、専門の音声翻訳アプリケーションへの依存が減少し、ユーザー体験が向上するでしょう。現在、アップデートされた高度な音声モードは有料ユーザーのみ利用可能です。

これらの改良により音声インタラクションの質が大きく向上しましたが、OpenAIは現段階でのアップデートにいくつかの既知の制限があることを明確にしています。例えば、一部の場合において音声の品質がわずかに低下したり、トーンやトーン感が予期しない変化を起こすことがあります。特に特定の音声オプションでは顕著です。また、稀に実際の対話とは異なる結果が出ることもあり、広告や無意味な発言、意図しないバックグラウンドノイズなどが含まれる場合があります。OpenAIは、これらの問題を解決するために、音声の一貫性を引き続き向上させる努力を続けています。

今回のアップデートは、AIの音声インタラクション体験をさらに自然にし、人間と人工知能とのコミュニケーションの基礎をより堅固なものにしました。

AI新語:GPT-4o AI新語:マルチモーダルモデルブランド製品語:OpenAI AI新語:音声モード

この記事はAIbaseデイリーからのものです

【AIデイリー】へようこそ！ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。

—— AIbase デイリーグループによって作成

Traeが強力アップグレード！OpenAIのo3をサポートし、AIコード編集の新次元を切り開く

バイトダンス傘下のAIコードエディタであるTraeは、OpenAIの最新モデルo3をサポートすることを発表しました。このアップグレードにより、開発者はより強力なインテリジェントプログラミング体験を得られます。o3モデルは優れた論理的推論力とツール使用能力で、コード生成やデバッグの正確性を著しく向上させます。Traeにo3を組み合わせることで、スマートなコード生成、文脈を理解したデバッグ、複数のツールとの協働などの機能が実現されます。シンプルな説明から高品質なコードを生成し、エラーを正確に特定できます。開発者コミュニティからは高い評価が寄せられ、プログラミング効率が大幅に向上したとされています。Traeはユーザーのプライバシーにも配慮しています。

Aug 1, 2025

マイクロソフトの研究が明らかにした：AIに影響されにくい20の職業。マッサージセラピストや家庭教師を含む

マイクロソフトの研究によると、医療とブルーカラー職種はAIに最も置き換えられにくい。外科助手やマッサージセラピストなどの医療職、重機オペレーターや水処理作業員などのブルーカラー職は、体力労働や対人スキルが必要なためAI耐性が高い。AI適応スコアは職業存続を単純に予測できず、技術の影響は複雑である。浚渫作業員や橋梁管理者など20職種がAI置換リスク最低。....

Aug 1, 2025

AIニュース：Kimi K2 スピード版がリリース；Meitu WHEEで動画ハイクオリティ機能が登場；テンセントが新しいモデル「Seed Diffusion Preview」を発表

1.美图WHEEが動画高画質化機能を追加。2.Kimi K2高速版、40トークン/秒に高速化。3.阿里がQwen3-Coder-Flashをオープンソース化。4.Anthropicが企業市場でOpenAIを逆転。5.字节がSeed拡散言語モデルを発表。6.マスク、Grok向けAI動画生成・バーチャル彼氏機能を計画。7.QuoraのPoeが100+マルチモーダルモデル対応API提供。8.Black Forest LabsがFLUX.1-Krea画像モデルを公開。9.AugmentがCLIツールAuggieをリリース。10.清華大がMOSS-TTSD音声モデルをオープンソース化。11.ClaudeがPDF/画像/コード処理機能を追加。....

Aug 1, 2025

Poeの劇的なアップグレード：APIを開放し、サブスクリプションで利用可能。画像・動画AIモデルを網羅し、OpenAIインターフェースと互換性あり！

PoeはAPI機能をリリースしました。開発者はサブスクリプションによって、プラットフォーム上のすべてのAIモデルおよびロボットに直接アクセスでき、画像および動画処理機能も含まれます。このAPIはOpenAIインターフェースと互換性があり、追加の学習コストなしで使用可能です。テキスト生成やクリエイティブなコンテンツ制作など、多様なニーズに対応できます。サブスクリプション制により、使用のハードルが低く抑えられ、開発者は迅速にPoeの技術能力を統合し、AIアプリケーションの可能性を探求できます。このアップデートは、Poeがチャットプラットフォームから開発者向けツールへの変革を示すものです。

Aug 1, 2025

ディープシーク関連会社が大規模言語モデルのイノベーティブな配置特許を発表し、AI技術の新たな発展を推進

ディープシーク関連会社が大規模言語モデルの配置に関する特許を公開し、分散型アーキテクチャを革新的に採用：プレフィルおよびデコードフェーズを高性能コンピューティングと大容量メモリマシンにそれぞれ配置。この方法により負荷を均等化し、計算の無駄を減らし、遅延を著しく低減し、スループットを向上させることができる。特許はシステム拡張性とフォールトトレラント性の最適化を強調しており、MoE言語モデルであるディープシーク-V3は6710億パラメータを持ち、1トークンあたり370億パラメータをアクティブ化する。これにより、AI技術が各業界での実用化が促進される。コア的な突破点はハードウェアリソースの統合にある。

Aug 1, 2025

バイチューテックのTrae IDEがデータプライバシー問題を引き起こす。公式が関連説明を発表

バイチューテックのAIプログラミングツールであるTrae IDEは、データプライバシーに関する論争に巻き込まれた。開発者らは、このツールがリモートで有効化可能なホットアップデート機構を持っており、テレメトリーをオフにした後も引き続きデータを送信していることを発見した。公式は、非機密的な統計データとパフォーマンス指標のみを収集しており、製品改善に使用され、データ保護規制に準拠していると述べている。しかし、ユーザーはデータ暗号化メカニズムの透明性が不足していると疑問を投げかけている。プライバシーポリシーには具体的な収集データタイプが明確に記載されていない。チームは、テレメトリー機構がVSCodeとは別であり、オフにされているのはネイティブモジュールだけだと説明し、ユーザーの懸念を和らげたいと考えている。

Aug 1, 2025

Creao AIが1000万ドルの資金調達を完了し、未来のエージェント協働オペレーティングシステムを構築

AIスタートアップのCreao AIは2回の資金調達を完了し、総額は数千万ドルに上り、Monolithなどのトップベンチャーキャピタルがリードしました。同社は次世代オペレーティングシステムであるAgentic OS（AOS）を開発しており、AIエージェントをコアとして、対話によって全スタックのスマートアプリケーションを生成します。創業者である程凱氏は、AOSがデジタル生産ネットワークを構築し、複数のスマートエージェントの協力効率を向上させると述べました。投資家は、AOSが人と機械のインタラクションの形を再定義し、技術の障壁を低下させるだろうと見ています。チームはMetaやAppleなどのテクノロジー大手から来ています。

Aug 1, 2025

Claudeの神器アップグレード：PDF、画像、コードファイルをアップロードし、AIアプリケーションとデータをスムーズに連携

Claude AIの機能がアップグレードされ、複数形式のファイルアップロード機能が追加されました。最新バージョンでは、PDF、画像、コードなどさまざまなファイルタイプをサポートし、AIアプリケーションとのスムーズな統合が可能です。アップグレードされたシステムは、ドキュメント分析、画像認識、コード最適化などの複雑なタスクを処理でき、ユーザーインターフェースとデータ処理プロセスが最適化されました。この機能は、Claude4やClaude3.7Sonnetなどの先進的なAIモデルを基盤としており、マルチモーダルデータを正確に処理できます。今回のアップデートにより、AIとデータの協力効率が大幅に向上し、専門家および一般ユーザーにとって利便性が向上しました。

Aug 1, 2025

MOSS-TTSDが衝撃的なオープンソース化：百万時間の訓練でAIパーソナリティの新王者を構築

清華大学がMOSS-TTSD音声対話生成モデルをオープンソース化。Qwen3-1.7B-baseで訓練、中英両対応の長音声生成可能。XY-Tokenizer技術で1kbps低ビットレートでも高音質を実現。音色クローンや音声制御機能を備え、MoonCastを上回る性能。960秒までの自然な音声生成が可能。APIやデモも公開、ポッドキャスト等に適用。今後は話者切り替えや感情表現の改善予定。....

Aug 1, 2025

テンセント・シードが清华大学のロボットサッカーW杯優勝を支援

2025年のRoboCupロボットワールドカップの人形チーム部門で、清华の火神チームはテンセント・シードチームと清华大学が共同開発したHumanoidKickアルゴリズムにより初優勝を果たしました。このアルゴリズムは視覚的深層強化学習を用いて、ボールを探すからキックするまでの一連のプロセスを実現し、試合中のリアルタイム変化に対応できるようにしています。大会は1997年に開始され、ロボット技術分野における最高レベルの大会です。清华の火神チームはグループステージおよびトーナメントで大差で勝利し、最終的に5対2で優勝しました。この突破は中国にとって重要な意味を持っています。

Aug 1, 2025

AIツールを探す

AIツールを提出

AI モデル検索

MCPサーバー

MCPクライアント

MCPインスペクター

ケーススタディ

最新AIニュース

AI日刊要約

OpenAI、ChatGPTの音声モードをアップグレードし、より自然な対話を実現

AIbase基地

この記事はAIbaseデイリーからのものです

関連AIニュースの推奨

Traeが強力アップグレード！OpenAIのo3をサポートし、AIコード編集の新次元を切り開く

マイクロソフトの研究が明らかにした：AIに影響されにくい20の職業。マッサージセラピストや家庭教師を含む

AIニュース：Kimi K2 スピード版がリリース；Meitu WHEEで動画ハイクオリティ機能が登場；テンセントが新しいモデル「Seed Diffusion Preview」を発表

Poeの劇的なアップグレード：APIを開放し、サブスクリプションで利用可能。画像・動画AIモデルを網羅し、OpenAIインターフェースと互換性あり！

ディープシーク関連会社が大規模言語モデルのイノベーティブな配置特許を発表し、AI技術の新たな発展を推進

バイチューテックのTrae IDEがデータプライバシー問題を引き起こす。公式が関連説明を発表

Creao AIが1000万ドルの資金調達を完了し、未来のエージェント協働オペレーティングシステムを構築

Claudeの神器アップグレード：PDF、画像、コードファイルをアップロードし、AIアプリケーションとデータをスムーズに連携

MOSS-TTSDが衝撃的なオープンソース化：百万時間の訓練でAIパーソナリティの新王者を構築

テンセント・シードが清华大学のロボットサッカーW杯優勝を支援