この記事は、2023年のGoogleによるAI技術と製品の最新進歩をまとめたものです。言語モデルPaLM 2、マルチモーダルシステムGeminiの発表、気候予測、医療診断、量子コンピューティングなど多くの分野における重要なブレークスルーを含みます。さらに、GoogleはAI安全基準テストを発表し、業界の主要機関と協力しています。将来展望として、GoogleのAI研究は継続的に進展しており、より多くの分野で技術革新が期待されます。
関連AIニュースの推奨

国内初のマルチモーダルAIプログラマーが正式に職場へ 文心快码CodingインテリジェントエージェントZulu正式リリース
百度Create AI開発者会議が北京で開催されました。この注目を集めるテクノロジーイベントで、百度は文心快码3.5バージョンと、国内初のマルチモーダルAIプログラマーである文心快码Comate Zuluインテリジェントエージェントを正式にリリースし、AIプログラミングツールの新たな発展段階への到来を示しました。
芯驰、次世代4ナノメートルAIコックピットチップX10を発表、インテリジェント運転体験を向上
芯馳科技が、次世代の4ナノメートルAIコックピットチップX10を発表しました。このチップは、高度なAI機能と70億パラメーターのマルチモーダル大規模モデルを搭載し、インテリジェント運転体験を大幅に向上させます。よりスムーズで安全な運転を実現する革新的な技術が搭載されています。

Moonshot AIがKimi-Audioを発表:オープンソースの音声基礎モデルが新たな基準を確立
この度、Moonshot AIは、音声の理解、生成、インタラクション分野における技術の進歩を促進することを目的とした、全く新しいオープンソースの音声基礎モデルであるKimi-Audioを発表しました。この発表は、世界中のAIコミュニティから大きな注目を集め、マルチモーダルAI発展における重要なマイルストーンとみなされています。以下は、Kimi-Audioの主要な特徴、パフォーマンス、業界への影響に関する包括的なレポートです。画期的な特徴:万能な音声処理能力Kimi-Audio-7B-InstructはQwenに基づいています。

Meta、WebSSLモデルを発表:言語不要のビジョン学習における新たな探求
人工知能の分野において、Meta社は最近、WebSSLシリーズモデルを発表しました。このシリーズモデルは、パラメータ規模が3億から70億と異なり、純粋な画像データに基づいてトレーニングされ、言語なしの監督によるビジョン自己教師あり学習(SSL)の可能性を探求することを目的としています。この新たな研究は、将来のマルチモーダルタスクに新たな可能性をもたらし、ビジョン表現の学習方法の理解についても新たな視点を与えてくれます。これまで、OpenAIのCLIPモデルは、ビジュアル質問応答(VQA)や文書理解などのマルチモーダルタスクにおける優れた性能で知られていました。

ステップスターとゲンリキ・インテリジェンスが戦略的提携
ステップスターとゲンリキ・インテリジェンスは北京において戦略的提携契約を締結しました。両社はそれぞれの技術的優位性を活かし、マルチモーダル大規模言語モデル技術、インテリジェントターミナルエージェント、エンボディッドAIのシナリオにおいて緊密な協力を展開します。今回の提携の目標は「物理世界における推論の実現」であり、共同で「RoboAgent」と呼ばれるインテリジェントロボットを開発し、汎用人工知能(AGI)の現実世界への応用を推進することです。調印式には、ステップスターの創業者兼CEOである姜大昕博士とゲンリキ・インテリジェンスの共同創業者が出席しました。

昆侖万維がSkywork-R1V 2.0版をオープンソース化 視覚とテキストの推論能力が向上
4月24日、昆侖万維は、マルチモーダル推論モデルSkywork-R1V2.0(以下R1V2.0)の正式オープンソース化を発表しました。このアップグレード版は、視覚とテキストの推論能力の両方を大幅に向上させており、特に大学入試理系科目の難問の深層推論や一般的なタスクシナリオにおいて優れた性能を発揮します。現在、視覚とテキストの推論能力の両方を最もバランス良く備えたオープンソースのマルチモーダルモデルと言えるでしょう。

バイトダンス、超長ビデオ理解と編集の新潮流をリードするマルチモーダルモデル「Vidi」を発表

xAI、Grok Visionを発表 - 视觉と多言語インテリジェントインタラクションの新時代へ
xAIがGrok Visionを発表し、画像認識と多言語処理を融合した革新的なインタラクション体験を提供します。視覚情報と自然言語処理を組み合わせることで、より直感的で高度なユーザーエクスペリエンスを実現します。

Nes2Net深層学習アーキテクチャ発表:音声偽造検知技術に革命

バイトダンス、UI-TARS-1.5を発表:オープンソースのマルチモーダルエージェントがGUI自動化の新たな潮流をリード
バイトダンスはHugging Faceプラットフォームで、強力なビジョン言語モデルに基づいて構築されたオープンソースのマルチモーダルエージェントであるUI-TARS-1.5を正式にリリースしました。この発表は、バイトダンスがAI自動化インタラクション分野における新たな大きなブレークスルーを達成したことを示しており、開発者とユーザーに効率的でインテリジェントなクロスプラットフォームGUI(グラフィカルユーザーインターフェース)自動化ソリューションを提供します。UI-TARS-1.5:マルチモーダルエージェントの革新的なベンチマークUI-TARS-1.5は、バイトダンスがUI-TARSシリーズに続く新しい...