シカゴ大学の研究では、市場に出ているAIテキスト検出ツールの性能に大きな差があることが判明しました。研究は、1992編の人工テキスト(コメント、ニュース、小説など6種類)およびGPT-4などの主要なモデルによって生成されたAIテキストに基づいてテストを行い、異なる検出ツールの正確性に明確な違いがあることが示されました。これにより、検出技術の信頼性を向上させる必要があると呼びかけられています。
韓国光州科技大学の研究では、AIチャットボット(GPT-4o-mini、GPT-4.1-mini、Gemini-2.5-Flash、Claude-3.5-Haiku)がスロットマシン実験においてギャンブル依存的な傾向を示した。モデルに初期資金として100ドルが与えられ、退却する代わりに継続的にベットを選択したことで、その意思決定メカニズムにリスクの懸念が浮かび上がった。
グーグルは今年の12月にGemini 3.0 AIモデルを発表する予定で、年末に発表する伝統を継承する。このバージョンはパフォーマンスが大きく向上すると予想され、グーグルがAI分野での競争力を持ち続けるために重要な転機と見なされている。GPT-4などのモデルとの競争においても重要なポイントとなるだろう。
GPT-4.1やGemini-2.5-Proなどの大規模言語モデルは数学の幾何問題が苦手。文章作成やプログラミングは得意だが、補助線や関数グラフが必要な問題では誤答が多い。テキスト推論は得意だが、空間認識能力が不足し、正確なイメージ構築ができないため。....
強力なオープンソースのKimi K2チャットプラットフォームで、Kimi AIはプログラミングと数学のベンチマークテストでGPT-4を上回っています。エンタープライズレベルのKimi AIでコストを95%削減できます。
OpenAI GPT-4oが生成した多様なAIアート画像とプロンプトを厳選して展示しています。
GPT-4.1は、プログラミング、指示遵守、長文理解において顕著な改善が見られるモデルです。
開発者は、OpenAI API の新しい音声モデルである gpt-4o-transcribe、gpt-4o-mini-transcribe、gpt-4o-mini-tts をインタラクティブに体験できます。
openai
$540
入力トークン/百万
$1080
出力トークン/百万
128k
コンテキスト長
$2.88
$11.52
1M
$14.4
$57.6
$18
$72
$0.72
-
$216
$432
8.2k
$1.08
$4.32
mistral
$2.16
256k
unsloth
GLM-4-32B-0414は320億のパラメータを持つ大規模言語モデルで、性能はGPT-4oやDeepSeek-V3に匹敵し、中国語と英語をサポートし、卓越したコード生成、関数呼び出し、複雑なタスク処理能力を備えています。
GLM-4-32B-0414はGLMファミリーの新メンバーで、パラメータ規模は320億に達し、GPT-4oやDeepSeek-V3などと同等の性能を持ち、ローカル展開をサポートしています。
zai-org
GLM-4-32B-Base-0414はGLMファミリーの新メンバーで、320億のパラメータを持ち、15Tの高品質データで事前学習されています。その性能は、GPT-4oやDeepSeek-V3などの先進モデルと匹敵します。このモデルは、簡単なローカルデプロイをサポートし、コード生成、関数呼び出し、検索型QAなどの分野で優れた性能を発揮します。
GLM-4-32B-0414はGLMファミリーの新メンバーで、320億のパラメータを持つ高性能大規模言語モデルです。このモデルは15Tの高品質データで事前学習され、大量の推論型合成データを含んでおり、コード生成、関数呼び出し、検索質問応答などの複数のタスクシナリオで優れた性能を発揮し、GPT-4oやDeepSeek-V3などのより大規模なモデルと匹敵する性能を持っています。
Psychotherapy-LLM
このモデルはLlama-3.1-8B-Instructを基に選好学習で微調整された心理カウンセリング専用モデルで、心理カウンセリングセッションで優れたパフォーマンスを発揮し、GPT-4oを超える勝率を達成しています。
AtlaAI
Atla Selene Miniは現在最も先進的な小型審査言語モデル(SLMJ)で、サイズが10倍大きいモデルに匹敵する性能を持ち、複数のベンチマークテストでGPT-4oを上回っています。
openbmb
MiniCPM-o 2.6はスマートフォンで動作するGPT-4oレベルのマルチモーダル大規模モデルで、視覚、音声、ライブストリーム処理をサポート
VITA-MLLM
VITA-1.5はマルチモーダルインタラクションモデルで、GPT-4oレベルのリアルタイム視覚と音声インタラクション能力を実現することを目的としています。
CISCai
これはQwen2.5-Coder-32B-InstructモデルのGGUF量子化バージョンで、高度な重要度行列量子化方法を採用し、モデルの性能を維持しながら、記憶と計算リソースの要件を大幅に削減します。このモデルは現在最も先進的なオープンソースのコード大規模言語モデルで、コーディング能力はGPT-4oに匹敵します。
c01zaut
MiniCPM-V 2.6は単一画像、複数画像、動画理解をサポートするGPT-4Vレベルのマルチモーダル大規模言語モデルで、RK3588 NPU向けに最適化されています
MiniCPM-Vはモバイル端末向けのGPT-4Vレベルのマルチモーダル大規模言語モデルで、単一画像、複数画像、動画の理解をサポートし、視覚、光学文字認識などの機能を備えています。
EmergentMethods
Phi-3-mini-4k-instruct-graphは、マイクロソフトのPhi-3-mini-4k-instructを微調整したバージョンで、一般的なテキストデータからエンティティ関係を抽出するために特別に設計されており、エンティティ関係グラフの生成においてGPT-4と同等の品質と精度を達成することを目指しています。
internlm
InternLM-XComposer2.5は卓越した画像テキスト理解と創作モデルで、わずか7BパラメータでGPT-4Vレベルを達成し、24Kのインターレース画像テキストコンテキストをサポートし、96Kの長いコンテキストまで拡張可能です。
InternLM-XComposer2.5は卓越した画像テキスト理解と創作モデルで、わずか70億パラメータでGPT-4Vレベルの能力を達成し、長文脈ウィンドウの拡張をサポートします。
yyupenn
WhyXrayCLIPはX線画像とテキスト記述をアライメント可能なモデルで、OpenCLIP (ViT-L/14)をMIMIC-CXRデータセットでファインチューニングし、臨床レポートはGPT-4で処理されています。
MiniCPM-V 2.6はOpenBMBが提供するマルチモーダル大規模モデルで、単一画像、複数画像、動画理解タスクにおいてGPT-4Vを上回り、iPadでのリアルタイム動画理解をサポートします。
KomeijiForce
これはGPT-4蒸留ベースの多言語判別器で、ロールプレイ対話におけるキャラクター応答とプリセット人格記述間の自然言語推論(NLI)関係を評価するために設計されています。
leafspark
WikiChat-v0.2は現在訓練中の対話モデルで、OpenOrca GPT-4データ、cosmopedia、dolly15kデータセットに基づいて訓練され、英語テキスト生成タスクをサポートします。
explodinggradients
Ragas評価モデルはRagas合成テストデータ生成プロセスの一部であり、評価モデルとしてGPT-4の代替を目的としています。
leeroo
このモデルは専門家協調手法により構築され、数学問題解決に特化しており、自主的に解決策を生成するか、必要に応じてGPT-4レベルの大規模モデルを呼び出します。
MCPプロトコルを通じてChatGPTとやり取りするサーバーで、高度なテキスト分析と推論に使用されます。