アマゾンはAIコンテンツ市場を立ち上げる計画であり、出版業者が直接テクノロジー企業にコンテンツの著作権を販売し、大規模言語モデルの訓練データに関する著作権トラブルを解決し、コンテンツライセンスの規格化を推進しようとしている。
钉钉8.2.10バージョンでは、チャットグループ専用のAIアシスタント「AIアオチン」がリリースされ、24時間常時オンラインで対応可能になりました。ユーザーは自然言語の指示で、そのAIに会議記録やタスク配分などのグループ内の雑務を自動処理させることができます。これにより協力効率が著しく向上します。
自動運転車は道路標識の認識に依存しているが、カリフォルニア大学の研究により、攻撃者が特定のテキストを印刷した標識を用いて視覚言語モデルの脆弱性を悪用し、車両に危険な判断をさせたり歩行者に向かわせたりできる致命的な弱点が明らかになった。この「CHAI」攻撃は、AIシステムが視覚指示に過度に依存するリスクを露呈している。....
【AI日報】へようこそ!ここは毎日人工知能世界を探索するためのガイドです。毎日、AI分野のホットな内容をお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。新鮮なAI製品についてはこちらから詳しく:https://app.aibase.com/zh1、アリババグループがLingBot-VLAを発表:「二本腕ロボット操作が大規模モデル時代へ」アリババグループは視覚・言語・行動のベースモデルであるLingBot-VLAを発表しました。
Noiz AIは声のクローン、感情制御をサポートし、多言語TTSと開発者用APIを提供します。
Hunyuan Image 3.0は画期的な拡散AIを用いて高品質な画像を生成し、多言語に対応しています。
DeepPDFはAI研究アシスタントで、深層学習用のPDFドキュメントを扱い、チャット、要約、翻訳比較、および重要用語、画像、数式の分析機能を提供します。
Jupyter用に設計されたAIエージェントで、自然言語によるコード生成とセルの実行が可能です。
Google
$0.7
入力トークン/百万
$2.8
出力トークン/百万
1k
コンテキスト長
Anthropic
$7
$35
200
$21
$105
Alibaba
$2
$20
-
$3.9
$15.2
64
Moonshot
$4
$16
256
Bytedance
$0.8
128
Deepseek
$12
Tencent
$1
32
$0.75
Openai
$8.75
$70
400
$1.75
$14
$525
$0.63
$3.15
131
24
RinggAI
これは通話記録分析用に特別に開発された混合言語AIモデルで、ヒンディー語、英語、およびヒンディー語と英語の混合通話の文字起こし内容を処理できます。モデルはQwen2.5 - 1.5B - Instructをベースに微調整されており、強力な多言語理解と情報抽出能力を備えています。
bartowski
これはai-sageのGigaChat3-10B-A1.8Bモデルを定量処理したバージョンで、llama.cppのimatrix定量技術を採用し、さまざまなハードウェア条件下でより効率的に動作します。モデルはロシア語と英語をサポートし、主にテキスト生成タスクに使用されます。
prithivMLmods
VibeThinker-1.5Bは微博AIが開発した15億パラメータの密集型言語モデルで、Qwen2.5-Math-1.5Bをベースに微調整され、数学やアルゴリズムコーディングの問題に特化して設計されています。「スペクトルから信号への原理」のフレームワークを用いてトレーニングされ、複数の数学コンテストのテストでより大規模なモデルを上回り、トレーニングコストは約7800ドルで、最大約40kトークンの出力をサポートします。
allenai
Olmo 3はAllen Institute for AIによって開発された一連の言語モデルで、7Bと32Bの2種類の規模があり、命令式と思考式の2種類のバリエーションがあります。このモデルは長鎖思考に優れており、数学やコーディングなどの推論タスクの性能を効果的に向上させることができます。多段階訓練方式を採用しており、教師付き微調整、直接嗜好最適化、検証可能な報酬による強化学習が含まれます。
Olmo 3はAllen Institute for AIによって開発された全新型の言語モデルファミリーで、7Bと32Bの2種類の規模があり、指令(Instruct)と思考(Think)の2種類のバリエーションがあります。このモデルは長鎖型の思考を用いて、数学やコーディングなどの推論タスクの性能を向上させ、言語モデル科学の発展を推進することを目的としています。
Olmo 3 7B RL-Zero Mathは、Allen AIによって開発された、数学的推論タスクに特化して最適化された70億パラメータの言語モデルです。RL-Zero強化学習方法を用いて数学データセットで訓練され、数学的推論能力を効果的に向上させます。
Olmo-3-32B-Think-DPOはAllen AIが開発した32Bパラメータの言語モデルで、直接嗜好最適化(DPO)を用いて訓練され、長鎖的な思考推論能力を備え、数学やコーディングなどの複雑な推論タスクで優れた性能を発揮します。
unsloth
Qwen3-VL-2B-InstructはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力を備えています。このモデルは2Bのパラメータ規模を採用し、命令対話をサポートし、マルチモーダルAIアプリケーションに適しています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
ApertusはスイスのAIによって開発された完全にオープンな多言語大規模言語モデルで、70億と80億の2種類のパラメータ規模を提供します。このモデルは1000種類以上の言語をサポートし、完全にコンプライアンスでオープンな学習データを使用し、その性能はクローズドソースモデルに匹敵します。Apertusは15Tのトークンで事前学習され、段階的なコース学習方法を採用し、最大65,536トークンのコンテキスト長をサポートします。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。2段階のパイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度と音質を実現し、複数の言語をサポートし、エッジ/サーバーデプロイメントに適しています。
Salesforce
CoDAはSalesforce AI Researchによって開発された拡散モデルに基づくコード生成言語モデルで、双方向コンテキスト理解能力を備え、強力なコード生成と補完タスク用に設計されています。このモデルはわずか17億のパラメータで、低い計算要件を維持しながら卓越したコード生成性能を実現しています。
Mungert
LFM2はLiquid AIによって開発された次世代のハイブリッドモデルで、エッジAIとデバイス端末のデプロイメントに特化して設計されており、品質、速度、メモリ効率の面で新しい基準を確立しています。このモデルは革新的なハイブリッドLiquidアーキテクチャを採用し、乗算ゲートと短い畳み込みを備えており、多言語処理をサポートしています。
geoffmunn
これはQwen/Qwen3-0.6B言語モデルのGGUF量子化バージョンで、6億のパラメータを持つコンパクトな大規模言語モデルで、低リソースデバイスでの超高速推論用に設計されています。llama.cpp、LM Studio、OpenWebUI、GPT4Allなどのフレームワークをサポートし、どこでもオフラインでプライベートAIを使用できます。
nvidia
NVIDIA Qwen3-8B FP4モデルは、アリババのQwen3-8Bモデルの量子化バージョンで、最適化されたTransformerアーキテクチャを採用した自己回帰型言語モデルです。このモデルはFP4量子化技術を使用し、パフォーマンスを維持しながらメモリ使用量と計算要件を大幅に削減し、AIエージェントシステム、チャットボット、RAGシステムなどのアプリケーションシナリオに適しています。
manuelcaccone
Gemma-3 ActuaryEnough2は精算分野に特化したAIモデルで、11,000以上の精算質問と回答のペアを使って微調整学習されており、簡単な保険の質問を厳密な精算専門用語に変換することができます。このモデルはActuaryEnoughをサポートし、オープンソース形式で教育や研究目的で公開されています。
NVIDIA-Nemotron-Nano-9B-v2はNVIDIAが最初から訓練した大規模言語モデルで、推論および非推論タスク用に設計されています。Mamba2-Transformer混合アーキテクチャを採用し、多言語処理をサポートし、制御可能な推論能力を備え、ユーザーが思考予算を指定でき、商用アプリケーションやAIエージェントシステムで優れた性能を発揮します。
mlx-community
GLM-4.5-Air-6bitは、智譜AIのGLM-4.5-Airモデルを変換した6ビット量子化バージョンで、MLXフレームワーク用に最適化され、大規模言語モデルの高効率な推論能力を提供します。
GLM-4.5-Air-8bitは、智譜AIのGLM-4.5-Airモデルから変換された8ビット量子化バージョンで、MLXフレームワーク用に特別に最適化されています。このモデルは、オリジナル版の強力な自然言語処理能力を維持しながら、量子化技術によってメモリ使用量と計算要件を削減し、Apple Siliconデバイスで効率的に動作するのに適しています。
Redis MCPサーバーは、Redis用に設計された自然言語インターフェースサービスで、AIエージェントが自然言語でRedisデータをクエリし管理でき、MCPプロトコルを統合し、複数のデータ構造と検索機能を提供します。
Rustを用いて開発されたローカライズされたAI財務管理システムで、自然言語入力、インテリジェント分析、税務計算、債務追跡をサポートし、すべてのデータはローカルのSQLiteデータベースに保存されます。
AIとKubernetes管理を組み合わせたインテリジェントなシステムで、自然言語対話を通じてクラスターの診断、リソースの監視、およびログ分析を実現し、K8sの運用を簡素化します。
Gossiphsは、ゼロコンフィグ、高性能の汎用コードファイル関係分析ツールで、複数のプログラミング言語をサポートし、tree - sitterとgitに基づいて分析を行い、Python SDKとMCPプロトコルをサポートし、AIとの統合を容易にします。
AgentRPCは、ネットワークと言語の境界を越えてAIエージェントの関数呼び出しを接続するための汎用的なRPC層です。
Postmancerは、AIアシスタント用に設計されたMCPサーバーで、自然言語でRESTful APIとのやり取りをサポートします
AiryLark MCPは専門レベルの翻訳サービスインターフェースで、三つの段階からなるプロセスにより翻訳品質を保証し、多言語間の相互翻訳と分野用語の識別をサポートし、技術文書、学術論文などの専門シナリオに適しています。
OLS MCPサーバーは、大型言語モデルにオントロジ照会サービスを提供するツールで、EBIオントロジ照会サービスAPIに接続することで、AIアシスタントが生物医学分野のオントロジ用語、概念、階層構造を正確に取得するのを支援します。
Axiomデータプラットフォーム用に実装されたModel Context Protocolサーバーで、AIエージェントがAPLクエリ言語を通じてデータにアクセスできます
Prefect用に設計されたMCPサーバーで、AIアシスタントが自然言語でPrefectと対話でき、フロー管理、デプロイ管理などの複数の機能をサポートします。
SolidPilotはオープンソースのSolidWorks AIアシスタントで、モジュール式アーキテクチャを採用し、MCPプロトコルを通じてClaudeなどのローカル言語モデルとやり取りします。Python層、C#アダプター層、COMブリッジなどの技術コンポーネントを含んでいます。
AivisSpeechテキスト読み上げエンジン用に設計されたMCPサーバー。日本語音声合成、複数の音声キャラクター選択、パラメータ設定をサポートし、AIアシスタントとのシームレスな統合を実現します。
剪映ビデオ制作MCPサーバーはModel Context Protocolに基づく自動化ツールで、AIアシスタントが自然言語で専門的なビデオコンテンツを作成できるようにし、自動的に剪映の草稿を作成し、素材を追加し、エフェクトを適用し、プロジェクトファイルをエクスポートすることをサポートします。
MS SQL MCPサーバーは、コーディング不要のブリッジツールで、AIアシスタントが直接Microsoft SQL Serverデータベースをクエリし、探索できます。データベースの発見、テーブル構造の表示、安全な読み取り専用SQLクエリの実行、自然言語からSQLへの変換機能をサポートしています。
このプロジェクトは、Model Context Protocol (MCP) 標準に基づくドキュメント処理サーバーです。ベクトルデータベースと MCP インターフェースを構築することで、AI アシスタントが外部のドキュメントリソースにアクセスできるようにし、大規模言語モデルの知識制限を突破します。プロジェクトにはドキュメント処理パイプラインと MCP サーバーの 2 つの主要コンポーネントが含まれており、複数の埋め込みモデルとファイル形式をサポートし、最新の技術ドキュメントの検索やプライベートコードベースの理解などのシナリオに適用できます。
このプロジェクトは、大規模言語モデル(LLM)やその他のAIエージェント用に設計されたサーバーツールで、電子健康記録(EHR)と安全に対話するためのものです。SMART on FHIR標準を通じて安全なデータアクセスを実現し、モデルコンテキストプロトコル(MCP)を利用してツールセットを提供し、AIと多様なEHRシステムの間の安全なゲートウェイおよびツールパッケージとして機能します。
FOCUS DATA MCPサーバーは、自然言語をSQL文に変換するAIアシスタントサービスで、2段階生成方式を採用してLLMの幻覚をコントロールし、非技術ユーザーがSQL結果に対する信頼度を向上させます。
ワナクMCPルーターは、モデルコンテキストプロトコル(MCP)に基づくAIアプリケーション用ルーターで、アプリケーションが大規模言語モデル(LLM)にコンテキストを提供する方法を標準化することを目的としています。
Microsoft OneNote用に実装されたモデルコンテキストプロトコル(MCP)サーバーです。標準化されたインターフェイスを提供し、AI言語モデルがOneNoteとやり取りできるようにします。ノートブック、セクション、およびページの管理機能をサポートします。
NetBrain MCPは、オープンソースのネットワーク運用管理プラットフォームです。Model Context Protocolを通じて大規模言語モデルとネットワーク機器を接続し、AI駆動のネットワーク設定、診断、管理を実現します。専用のWebターミナルインターフェースとネットワークトポロジーの可視化機能も提供します。