グーグルのVeo-3モデルは現実的な手術動画を生成できるが、医療操作の理解に不足がある。テストでは、AIが手術画像から8秒先の進行を予測し、SurgVeo基準で50本の本物の手術動画を評価した。4人の外科医が評価に参加し、モデルが重要な医学的ステップで欠陥があることを発見した。
グーグルがAI企業Anthropicへの追加投資を協議中。成立すれば同社の評価額は3500億ドル超に。Anthropicは元OpenAIメンバーが設立し、Claude言語モデルで知られる。過去にグーグルから30億ドル超の投資を受けた実績あり。....
宇樹科技CEO王興興氏は虹橋フォーラムで、ロボット大規模モデルがまだ初期段階(ChatGPT発表前1-3年程度)と指摘。生成AIの言語・視覚分野の進展を評価しつつ、人型ロボット分野の更なる革新突破を強調。....
英研究チームが440以上のAIモデル安全評価ベンチマークを分析した結果、ほぼ全てに欠陥があり、結果の有効性を弱め、誤解を招く評価につながる可能性が判明。AI安全性評価の信頼性に影響。....
AIモデルのソフトウェアエンジニアリング能力評価ツール
AIモデルのパフォーマンス評価プラットフォーム
AIモデルの性能を測定?比較するための最先端の評価ベンチマークです。
AIモデルのテストと評価ツール
upstage
-
入力トークン/百万
出力トークン/百万
65.5k
コンテキスト長
Sunbird
Sunflower-14Bは、Sunbird AIによって開発された多言語大規模言語モデルで、ウガンダの言語に特化して設計されています。このモデルはQwen 3-14Bアーキテクチャに基づいて構築され、31種類のウガンダ語と英語の翻訳およびテキスト生成タスクをサポートし、複数の評価で優れた成績を収めています。
ducklingcodehouse
これは、フィンランド語の歯科医学に特化した対話型AIアシスタントで、LoRAによる微調整を行った大規模言語モデルです。歯科相談の質問に対して、背景、評価、提案の3つの部分に分かれた構造化臨床回答を生成することができます。
RUC-AIBOX
STILL-3-TOOL-32BはPythonコードで推論プロセスを補助する大規模言語モデルで、AIME 2024評価で81.70%の精度を達成しました。
THUDM
GLM-4-9Bは、智譜AIが発表したGLM-4シリーズの最新世代の事前学習モデルのオープンソース版で、意味論、数学、推論、コード、知識などのデータセット評価で優れた性能を発揮し、多言語対応などの先進的な特性を備えています。
zai-org
GLM-4-9Bは、Zhipu AIが発表したGLM-4シリーズの最新世代の事前学習モデルのオープンソース版です。意味論、数学、推論、コード、知識などのデータセット評価で優れた性能を発揮し、多言語とさまざまな高度な機能をサポートしています。これには、ウェブブラウジング、コード実行、カスタムツール呼び出し、長文推論などの機能が含まれます。
GLM-4-9B-Chatは、智譜AIが提供するGLM-4シリーズの最新の事前学習モデルのオープンソース版です。意味論、数学、推論、コード、知識などのデータセット評価で優れた性能を発揮し、マルチラウンド対話、ウェブブラウジング、コード実行などの高度な機能をサポートし、多言語と長文脈推論もサポートしています。
Paranchai
airesearch/wav2vec2-large-xlsr-53-thをファインチューニングした音声感情認識モデルで、評価セットで85.79%の精度を達成
Skywork
天工評判シリーズモデルは天工AIアライメントチームによって開発され、70Bと8Bの2つの先進的な評判モデルを含み、ペア嗜好評価に長けており、入力されたテキストペアを細かく比較し、その相対的な品質や適用性を判断することができます。
NYUAD-ComNets
このモデルはAI生成画像を検出する分類器で、評価セットで97.36%の精度を達成しました。
WhiteRabbitNeo
WhiteRabbitNeoはサイバーセキュリティに特化したAIモデルシリーズで、33Bバージョンは攻防セキュリティ分野の能力と社会的影響を評価
Karko
Proctoraはエキスパート混合アーキテクチャ(MoE)に基づくモデルで、ロールプレイングと事実回答のエキスパートモジュールを組み合わせ、32Kのコンテキスト長をサポートし、AI-RPG評価で優れたパフォーマンスを発揮します。
cloudyu
Mixtral MOE 2x10.7Bは、ハイブリッドエキスパートアーキテクチャに基づく大規模言語モデルで、Sakura - SOLAR - InstructとCarbonVillainの2つの基礎モデルの長所を組み合わせています。このモデルは、テキスト生成タスクで優れた性能を発揮し、AI2推論チャレンジ、HellaSwag、MMLUなどの複数の公開データセットで評価されています。
WhiteRabbitNeoはサイバーセキュリティに特化したAIモデルシリーズで、攻防テストや評価に利用可能
AI-Sweden-Models
GPT-SW3は、AI Swedenとそのパートナーによって開発された多言語大規模言語モデルで、5つの北欧言語と4つのプログラミング言語をサポートし、北欧言語の処理能力の研究と評価に特化しています。
MCP NMAPサーバーは、AIアシスタントにネットワークスキャン機能を提供するプロトコルサーバーです。標準化されたインターフェースを通じて、AIモデルがNMAPを使用してネットワーク分析とセキュリティ評価を行うことができます。
MCP Thought Serverは、AIエージェントに高度な思考ツールを提供するサービスで、モデルコンテキストプロトコル(MCP)を通じて推論、計画、反復最適化能力を強化します。構造化思考、反復草稿、および統合思考などのツールを含み、SQLiteの永続化と高度な信頼度評価システムをサポートし、さまざまなニーズに合わせて環境変数を構成できます。
PageSpeed MCPサーバーは、AIアシスタントとGoogle PageSpeed Insights APIをつなぐブリッジで、AIモデルにウェブサイトのパフォーマンス分析機能を提供します。核心的なパフォーマンス指標、SEO評価、アクセシビリティ監査、リソース最適化提案などが含まれます。
このプロジェクトは、大規模言語モデル(LLM)とLisp開発環境を接続するためのモデルコンテキストプロトコル(MCP)アダプターで、軽量なLisplyプロトコルを介したやり取りをサポートします。主な機能には、Lispコードの評価、HTTPリクエスト、デバッグサポートが含まれ、AI支援によるシンボルプログラミング、CAD設計の自動化などのシーンに適しています。
Socket MCPサーバーは、依存関係のセキュリティスキャン用のモデルコンテキストプロトコルサービスで、npm、PyPIなどのソフトウェアパッケージエコシステムのセキュリティ評価と脆弱性検出機能を提供し、AIアシスタントとの統合と複数のデプロイ方法をサポートします。
YouTube MCPサーバーは、YouTube Data API v3を通じてYouTubeのリアルタイムデータアクセスを提供する総合的なモデルコンテキストプロトコルサーバーで、動画詳細情報の取得、チャンネル分析、コンテンツ評価、字幕抽出など14種類の機能をサポートし、AIアシスタントへの統合に適しています。
MCPコードインデクサーは、AI大規模言語モデル向けに設計されたインテリジェントコード検索ツールで、意味理解とベクトル化インデックスを通じてコード処理の効率と精度を向上させ、コード分析、品質評価、依存関係管理などの機能をサポートしています。
Model Context Protocolに基づくサービスで、Google PageSpeed Insightsのウェブページパフォーマンス分析機能を提供し、AIモデルが標準化されたインターフェースを通じてウェブページの読み込み性能を評価できるようにします。
MCPHubsはNext.jsをベースに構築されたウェブサイトで、AnthropicのModel Context Protocol (MCP)に関連するオープンソースプロジェクトを展示します。GitHub APIを通じてプロジェクト情報を取得し、Google Gemini Proモデルを使用してAI分析を行い、プロジェクトとMCPの関連性を評価し、プロジェクトリスト、詳細展示、READMEレンダリング機能を提供します。
AIモデルを基にしたウィキペディア記事の検索と分析サービスで、記事の検索、評価、分析機能を提供し、複数のAIモデルをサポートし、SSEストリーミングで結果を返します。