清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。
研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。
研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。
モデルの訓練・評価・テスト用大規模データセット・ベンチマーク
ユーザーに各種文書のテキスト抽出・文書処理を提供、汎用・カスタムシーン対応の多様な文書処理をサポート
清華大学などの研究チームが、AIエージェントの包括的なベンチマークテストであるAgentBenchを発表し、25種類の異なる言語モデルを包括的に評価しました。
研究結果によると、GPT-4は複雑な環境下で優れた性能を示し、最先端の商用言語モデルはオープンソースモデルに比べて顕著な優位性を有することが明らかになりました。
研究チームは、オープンソースモデルの学習能力の更なる向上を推奨しています。
【AIデイリー】へようこそ!ここは、毎日人工知能の世界を探求するためのガイドです。毎日、開発者に焦点を当て、技術トレンドを洞察し、革新的なAI製品アプリケーションを理解するのに役立つ、AI分野のホットなコンテンツをお届けします。
小米と北京大学がarXivで共同論文を発表。筆頭著者の羅福莉氏(1995年生、北师大計算機科卒、現・北大計算言語学研究所所属)は以前、雷軍氏の高額年俸募集で注目されたが、本論文の著者リストでは小米大モデルチーム所属は明記されていない。....
北京清华長庚病院と北電数智は共同で国内初の薬学専用の大規模モデルを開発し、AIを活用して薬学プロセスを最適化し、高齢者、児童、および妊娠中の女性などの特殊な人層における薬物使用安全性評価の効率と正確性を向上させ、薬品情報の急速な更新や個人差の複雑さという課題に対応しています。
2025年、AI音楽創作ツールが普及し、業界の構造を変える。1月、『原神』のプレイヤーがSunoで曲を作り640万再生を達成し、AIの創作能力について議論を巻き起こした。プログラマーが活発なグループとなり、3月にYapieが複数のツールを使って数時間でテーマ曲を完成させた。
OpenAIはマーティン・ルーサー・キング・ジュニア財団の要請を受け、Soraが同氏の肖像を生成する機能を一時停止。不適切なユーザー作成コンテンツを受け、歴史的人物の言論の自由を尊重しつつも、肖像使用の最終的な管理権は公人とその家族が持つべきと強調。....
李飛飛チームがRTFMモデルを発表。単一H100 GPUで持続的・3D整合性を維持し、反射・陰影効果を実現。3D世界のリアルタイム生成と相互作用を可能にし、技術の実用化を推進。....
スタンフォードなどの大学の研究チームは「言語化サンプリング」という方法を提案しました。この方法では、モデルに5つの応答とその確率を生成するようにプロンプトで要求することで、生成型AIの創造の多様性を効果的に向上させています。この手法は言語と画像モデルに適用可能であり、より豊かな創造性を引き出すことができます。
重慶市がAI乱用対策を実施、違反製品10点以上を削除。AI技術の急速な発展は利便性をもたらす一方、虚偽情報やデータセキュリティなどの問題も発生し、規制の重要性が浮き彫りに。....
Google Gemini 3.0 Proが限定配信開始。推論・マルチモーダル機能を強化し、月末正式リリース予定。DeepMindチームが段階的アップデートを実施中。....
豆包大モデル1.6が発表され、思考深度調整可能な初の国産モデルに。効率と品質のバランスを最適化し、軽量版で企業ニーズに対応。....
愛詩科技が1億元のB+ラウンド資金調達を完了。年間経常収入は4000万ドル超、登録ユーザー1億人、月間アクティブユーザー1600万人を突破。2024年11月商業化開始後、収入は10倍増と急成長。....