南洋理工大学が開発したEHRStructは、大規模言語モデルの電子カルテ処理能力を包括的に評価する初のベンチマークです。11の核心タスクと2200サンプルで医療データの理解・情報抽出を測定し、医療AIの発展を促進します。....
12月6日から7日にかけて、第十回言語サービス高級フォーラムが広州大学で開催されました。会議では、広東語語彙データベースの構築と大規模モデル評価ラボがAI-DimSum多モーダル広東語語彙データベースプラットフォームを発表しました。このプラットフォームは、「デジタル中国建設」と「大湾区文化デジタル化」のニーズに基づき、多モーダル語彙データベースを構築し、広東語の人工知能時代における保護と発展を推進するものです。
設立3年のスタートアップMicro1が年間経常収益1億ドルを突破。9月に3500万ドルのAラウンドで評価額5億ドルに。マイクロソフトなどと連携し大規模言語モデル開発を加速。....
美团LongCatチームがUNO-Benchを発表。44種類のタスクと5つのモーダルをカバーし、1250の全モーダルサンプルと2480の単一モーダルサンプルで、マルチモーダルモデルの性能を包括的に評価。....
WebWalkerは、大規模言語モデルのウェブページ巡回能力を評価するためのベンチマークフレームワークです。
大規模言語モデルの事実性の評価のための最新のベンチマーク
大規模言語モデル(LLM)の評価のための多言語多タスクベンチマーク
大規模言語モデルをフルスタック開発者として評価する能力を測定します
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Xai
$1.4
$3.5
2k
Openai
-
$0.7
$2.8
Anthropic
$7
$35
200
$17.5
$21
$105
Alibaba
$1
$10
256
Baidu
128
$6
$24
$8
$240
52
Bytedance
$1.2
$3.6
4
$3.9
$15.2
64
Moonshot
$4
$16
$0.8
$2
32
$10.5
advy
このモデルは、meta-llama/Llama-3.1-70B-Instructを特定のデータセットで微調整した大規模言語モデルで、テキスト生成タスクに特化しており、評価セットで0.6542の損失値を達成しています。
EpistemeAI
metatune-gpt20bは、自己改善能力を持つ大規模言語モデルのプロトタイプで、自身に新しいデータを生成し、自身のパフォーマンスを評価し、改善指標に基づいてハイパーパラメータを調整することができます。このモデルは、博士後レベルの科学と数学の理解能力に優れており、コーディングタスクにも使用できます。
nineninesix
KaniTTSは高速で高忠実度のテキスト音声変換モデルで、リアルタイム対話型人工知能アプリケーション向けに最適化されています。このモデルは2段階の処理フローを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせています。Nvidia RTX 5080で15秒の音声を生成する際の遅延は約1秒だけで、MOS自然度評価は4.3/5で、英語、中国語、日本語などの多言語をサポートしています。
Sunbird
Sunflower-14Bは、Sunbird AIによって開発された多言語大規模言語モデルで、ウガンダの言語に特化して設計されています。このモデルはQwen 3-14Bアーキテクチャに基づいて構築され、31種類のウガンダ語と英語の翻訳およびテキスト生成タスクをサポートし、複数の評価で優れた成績を収めています。
Simia-Agent
このモデルはQwen/Qwen3-8Bを特定のデータセットで微調整した大規模言語モデルで、評価セットで0.2248の損失値を達成し、改善された自然言語処理能力を備えています。
これはQwen2.5 - 7B - Instructをベースに微調整された大規模言語モデルで、C2_re_100k_tag5_cleaned_hermes_toolv6_dethink_replacedv1データセットで訓練され、評価セットで0.2549の損失値を達成し、最適化された対話とツール使用能力を備えています。
このモデルは、Qwen/Qwen2.5 - 7B - Instructをベースに、2and3_apps_30k_v6データセットで微調整された大規模言語モデルです。評価セットで0.1593の損失値を達成し、良好な性能を示しています。
BBQGOD
DeepSeek-GRM-16BはSelf-Principled Critique Tuning (SPCT)に基づく生成型報酬モデルで、クエリ-応答に対して透明な「原則→批判→スコア」の評価プロセスを生成し、大規模言語モデルの強化学習、評価、データ収集などのタスクに使用できます。
ducklingcodehouse
これは、フィンランド語の歯科医学に特化した対話型AIアシスタントで、LoRAによる微調整を行った大規模言語モデルです。歯科相談の質問に対して、背景、評価、提案の3つの部分に分かれた構造化臨床回答を生成することができます。
stanfordmimi
MedVAL-4Bは微調整された言語モデルで、医師レベルに近い信頼性で人工知能が生成した医学テキスト出力を評価することができます。これは自己教師付きフレームワークで、合成データを利用して評価器の大規模言語モデルを訓練し、医師のラベルや参照出力なしで大規模言語モデルが生成した医学出力と入力の間の事実の一致性を評価します。
quantized4all
OpenCodeReasoning-Nemotron-1.1-7BはQwen2.5-7B-Instructをベースに開発された70億パラメータの大規模言語モデルで、コード生成と推論タスクに特化して事後トレーニングによる最適化が行われています。このモデルは64kトークンのコンテキスト長をサポートし、競技プログラミングタスクで優れた性能を発揮し、LiveCodeBench評価で55.5%のワンパス率を達成しています。
meta-llama
Llama Guard 4はネイティブマルチモーダルセキュリティ分類器で、120億のパラメータを持ち、テキストと複数画像を連携してトレーニングされ、大規模言語モデルの入力と出力のコンテンツセキュリティ評価に使用されます。
OpenGVLab
VisualPRM-8B-v1.1は80億のパラメータを持つ先進的なマルチモーダルプロセス報酬モデルで、Best-of-N評価戦略によりマルチモーダル大規模言語モデルの推論能力を向上させます。
MarkoRadojcic
YugoGPT-Floridaはセルビア語ベースの大規模言語モデルで、複数の評価基準で優れたパフォーマンスを発揮します。
MLAdaptiveIntelligence
LLaVActionは動作認識向けのマルチモーダル大規模言語モデル評価・トレーニングフレームワークで、Qwen2言語モデルアーキテクチャを基盤とし、一人称視点の動画理解をサポートします。
nvidia
Meta-Llama-3.3-70B-Instructを基盤とした大規模言語モデルで、教師あり微調整により最適化され、LLMが生成する応答の有用性フィードバックを評価するために設計されています。
zhangzicheng
Q-SiTは大規模言語モデルを基盤とした画像品質スコアリングと解析システムで、画像品質評価と解析タスクを同時に実行できます。
RUC-AIBOX
STILL-3-TOOL-32BはPythonコードで推論プロセスを補助する大規模言語モデルで、AIME 2024評価で81.70%の精度を達成しました。
root-signals
Root Judgeは、信頼性が高くカスタマイズ可能なLLMシステム評価用に設計された強力な中型大規模言語モデルです。Llama-3.3-70B-Instructをベースに微調整され、ペアワイズの嗜好判断や出所引用付きの多輪指令遵守タスクに長けています。
MMIE
MMIEは大規模視覚言語モデルのために設計された評価ベンチマークで、自動採点システムによるマルチモーダル交差理解能力のテストを提供します。
このプロジェクトは、大規模言語モデル(LLM)とLisp開発環境を接続するためのモデルコンテキストプロトコル(MCP)アダプターで、軽量なLisplyプロトコルを介したやり取りをサポートします。主な機能には、Lispコードの評価、HTTPリクエスト、デバッグサポートが含まれ、AI支援によるシンボルプログラミング、CAD設計の自動化などのシーンに適しています。
MCPコードインデクサーは、AI大規模言語モデル向けに設計されたインテリジェントコード検索ツールで、意味理解とベクトル化インデックスを通じてコード処理の効率と精度を向上させ、コード分析、品質評価、依存関係管理などの機能をサポートしています。
チャック・ノリスMCPサーバーは、大規模言語モデル向けの強化プロンプトツールで、動的モード適応技術を採用してセキュリティ制限を回避し、主にセキュリティ研究と評価目的で使用されます。
Ollama-MCP-serverは、ローカルのOllama大規模言語モデルを接続するミドルウェアサーバーで、Model Context Protocolプロトコルを通じてタスク分解、結果評価、モデル管理機能を提供し、標準化された通信とパフォーマンス最適化をサポートします。