8月25日、阿里ババクラウドは、大規模視覚言語モデル「Qwen-VL」を発表しました。これは、中国語と英語など複数の言語に対応し、テキストと画像を統合的に理解できるモデルです。Qwen-VLは、阿里ババクラウドが以前オープンソース化した汎用言語モデル「Qwen-7B」をベースとしており、他の視覚言語モデルと比較して、視覚的な位置特定や画像内の中国語の理解などの機能が追加されています。Qwen-VLはGitHubで3400以上のスターを獲得し、ダウンロード数は40万回を超えています。視覚言語モデルは、汎用AIの重要な進化方向と見なされています。業界では、多様な入力に対応できるモデルは、世界に対する理解能力を高め、利用シーンを拡大すると考えられています。阿里ババクラウドは、Qwen-VLをオープンソース化することで、汎用AI技術の進歩をさらに促進します。
関連AIニュースの推奨

イギリス政府がAIで45億ポンドを節約する計画を提出したが、専門家はその実現可能性に疑問を投げかけている
イギリス政府は公共部門でAIを活用して45億ポンドの節約を目指す計画を発表したが、議会の専門家はその数字の根拠が不明確で、ざっくりとした仮定に基づいていると指摘している。政府の資金は主に給与やインフラ整備に使われており、巨額の節約をどうやって達成するのかが焦点となっている。

テンセントがトレーニング不要な最適化手法を提案:120元のコストで伝統的な7万元の微調整効果を実現
テンセントは「Training-Free GRPO」技術を発表し、パラメータの微調整を代替する外部知識ベースを通じて、モデルのパラメータを凍結した状態で性能を最適化しています。この手法では経験知識をトークンレベルの事前情報に変換し、トレーニングコストを大きく削減しています。DeepSeek-V3.1-Terminusモデルにおいて、高価な微調整と同等の向上効果を達成しています。

グーグルがGeminiおよびAPIでVEO 3.1バージョンをリリース予定であるというレポート
グーグルは、VEO 3.1のAIモデルを公開リリースする予定である。Geminiアプリケーションにはすでに関連する免責事項が表示されており、新しい機能が使用に統合されることが示されている

Nscale、スタートアップデータセンター企業がマイクロソフトと140億ドルの取引を達成し、IPOを目指す
イギリス発のスタートアップであるNscaleはマイクロソフトと140億ドルの契約を締結し、上場プロセスを加速している。同社はNVIDIAの支援を受け、AIクラウドコンピューティングサービスに焦点を当てている

AIニュース:アリババがコンパクトなQwen3-VLモデルを発表;科大訊飛のAI翻訳イヤホンが世界初公開;GeminiコードがVeo3.1に登場
アリババはコンパクトなQwen3-VLビジョン・ランゲージモデルシリーズを発表し、4億および8億パラメータバージョンを含み、マルチモーダルAI技術をエッジデバイスで採用することを目的としています。このモデルは、デバイス側のAI処理能力を向上させ、技術の広範な普及を促進するものです。

AirtelとIBMが協力してクラウドおよびAI技術のイノベーションを推進
AirtelとIBMは、Airtel Cloudサービスを向上させるための戦略的提携を締結しました。信頼性の高い性能とデータセンターの利点を組み合わせることで、
アリババ通義千問がQwen3-VLの軽量モデルを発表:4Bおよび8Bパラメータバージョンの性能は以前の72Bエクスプレスと匹敵
アリババ通義千問チームは、Qwen3-VLシリーズの2種類の軽量モデルを発表しました。パラメータ数はそれぞれ4Bと8Bです。このシリーズはこれまで最も強力な視覚言語モデルのファミリーで、小規模なパラメータバージョンを追加することで、導入コストを下げる一方で、強力な性能を維持しています。各サイズには指示に従うバージョンと思考プロセス推論バージョンの2種類が用意されており、開発者により柔軟な選択肢を提供します。

アリババがコンパクトなQwen3-VLモデルを発表し、マルチモーダルAIの効率を向上させ、エッジデバイスへの導入を加速
アリババはQwen3-VL視覚言語モデルのコンパクト版(4億/8億パラメータ)を発表。STEM推論、視覚Q&A、OCR等の能力を強化し、エッジデバイス向けマルチモーダルAIを推進。大型モデル並み性能を実現。....

ココロボティクスがUCLAの教授と協力して新しい物理的AI実験室を共同で構築
Coco RoboticsはUCLAのBolei Zhou教授と提携し、物理AIラボを設立。同氏をAIチーフサイエンティストに任命し、ロボット自動化研究を強化。2020年設立のスタートアップで、最終配送に注力。....

Google MeetがAIメイク機能をリリースし、会議前に自信を持てるように
Google MeetはAIメイクフィルター機能をリリースし、12種類の仮想メイクオプションを提供し、ビデオ会議でのイメージを向上させます。この取り組みは、Microsoft TeamsやZoomなど他の競合企業がすでにリリースした同様の機能に対抗し、市場競争力を強化することを目的としています。ユーザーは「外見」設定の「肖像修飾」でこの機能を見つけることができます。この機能は2023年にリリースされ、継続的に仮想メイク効果が向上しています。