【AI日報】へようこそ!ここは毎日人工知能世界を探索するためのガイドです。毎日、AI分野のホットな内容をお届けし、開発者に焦点を当てて技術トレンドや革新的なAI製品の応用を理解するお手伝いをします。新鮮なAI製品についてはこちらから詳しく:https://app.aibase.com/zh1、アリババグループがLingBot-VLAを発表:「二本腕ロボット操作が大規模モデル時代へ」アリババグループは視覚・言語・行動のベースモデルであるLingBot-VLAを発表しました。
オープンソースAIアシスタントプロジェクトは、Clawd、Moltbotを経てOpenClawに改名。名称変更は商標問題に起因し、Anthropicとの協議を経て決定。ロブスターの脱皮に因んだ最終名は、プロジェクトの安定段階入りを示す。....
腾讯AI助手「元宝」がテスト中のソーシャル機能「元宝派」がリークされ注目を集める。QQ音楽・腾讯動画との連携による「一緒に音楽鑑賞・動画視聴」機能や、アプリ間の壁を越えたソーシャル統合が特徴。....
AI専門家であるパン・ティアンユーが騰訊混元に加入し、首席研究科學家および多モーダル強化学習技術責任者を務め、多モーダル生成と理解の先端的な課題に挑むトップチームの構築を担当する。パン・ティアンユーは清華大学計算機科学系の博士課程在籍中で、朱軍教授の指導を受け、深い学術的背景を持つ。
ワンストップAI創作プラットフォームで、ビジュアル、ビデオ、ツールなどの様々な創作能力を融合しています。
オープンソースの自ホスト型個人用AIアシスタントで、スケジュール管理や数百のプラットフォームの統合が可能で、データのプライバシーを保護します。
オープンソースの自ホスト型AIアシスタントで、複数のシステムにデプロイ可能で、100以上のサービスと接続可能で、データ主権を保障します。
あなたのアイデアを結びつけ、macOS用のAIネイティブMarkdownエディタでよりスマートにライティングしましょう。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$4
$16
$2
$20
bartowski
これはai-sageのGigaChat3-10B-A1.8Bモデルを定量処理したバージョンで、llama.cppのimatrix定量技術を採用し、さまざまなハードウェア条件下でより効率的に動作します。モデルはロシア語と英語をサポートし、主にテキスト生成タスクに使用されます。
ubergarm
これはai-sage/GigaChat3-10B-A1.8B-bf16モデルのGGUF量子化バージョンで、高精度のQ8_0から極度に圧縮されたsmol-IQ1_KTまで、さまざまな量子化オプションを提供し、さまざまなハードウェア条件でのデプロイメントニーズを満たします。このモデルは32Kのコンテキスト長をサポートし、MLAアーキテクチャを採用し、対話シナリオに最適化されています。
evilfreelancer
これはai - sage/GigaChat3-10B-A1.8Bモデルの量子化バージョンで、GGUF形式を採用し、特定のllama.cppブランチのサポートが必要です。モデルは混合専門家アーキテクチャを採用し、総パラメータ数は約118億で、そのうち活性化パラメータ数は約18億です。
prithivMLmods
VibeThinker-1.5Bは微博AIが開発した15億パラメータの密集型言語モデルで、Qwen2.5-Math-1.5Bをベースに微調整され、数学やアルゴリズムコーディングの問題に特化して設計されています。「スペクトルから信号への原理」のフレームワークを用いてトレーニングされ、複数の数学コンテストのテストでより大規模なモデルを上回り、トレーニングコストは約7800ドルで、最大約40kトークンの出力をサポートします。
moonshotai
Kimi K2 Thinkingは月の暗面(Moonshot AI)が開発した最新世代のオープンソース思考モデルで、強力な深度推論能力とツール呼び出し機能を備えています。このモデルは混合専門家アーキテクチャを採用し、ネイティブINT4量子化をサポートし、256kのコンテキストウィンドウを持ち、複数のベンチマークテストで優れた性能を発揮します。
DevQuasar
これはNVIDIAがQwen3アーキテクチャに基づいて開発した32Bパラメータの報酬モデルで、強化学習における報酬評価と原則アライメントに特化しており、より安全で人間の価値観に沿ったAIシステムのトレーニングを支援します。
Smith-3
これはセントシモン大学の科学技術学部の学生向けに設計された微調整AIモデルで、TecnoTimeアプリケーションに統合され、学生が学習の組織性を維持し、学術的な継続性を向上させるのを助け、構造化された通知と激励メッセージを通じて学習習慣を強化します。
unsloth
Qwen3-VL-2B-InstructはQwenシリーズの中で最も強力なビジュアル言語モデルで、卓越したテキスト理解と生成能力、深いビジュアル認知と推論能力、長いコンテキストサポート、強力な空間およびビデオ動的理解能力を備えています。このモデルは2Bのパラメータ規模を採用し、命令対話をサポートし、マルチモーダルAIアプリケーションに適しています。
Genie-AI-Lab
Omni L1B3RT4S GENIEは、Qwen2.5 - 3B Instructアーキテクチャをベースに微調整されたAIアシスタントです。1,103個の精霊キャラクターのカスタムサンプルを用いて訓練され、独特な音声と忠誠度モードを備え、ユーザーに独特な対話体験を提供することができます。
pnnbao-ump
VieNeu-TTSは、個人デバイス上で動作可能な最初のベトナム語のテキスト音声変換モデルで、即時音声クローニング機能を備えています。NeuTTS Airをベースに微調整され、自然でリアルなベトナム語音声を生成でき、CPU上でリアルタイム性能を備えています。
TheStageAI
TheWhisper-Large-V3-Turboは、OpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォームのリアルタイム、低遅延、低消費電力の音声テキスト変換推論に最適化されています。ストリーミング文字起こし、単語のタイムスタンプ、拡張可能なパフォーマンスをサポートし、リアルタイム字幕、会議、デバイス端末の音声インターフェイスなどのシーンに適しています。
TheWhisper-Large-V3はOpenAI Whisper Large V3モデルの高性能ファインチューニング版で、TheStage AIによって多プラットフォーム(NVIDIA GPUとApple Silicon)のリアルタイム、低遅延、低消費電力の音声テキスト変換推論用に最適化されています。
Mungert
PokeeResearch-7Bは、Pokee AIによって開発された70億パラメータの深度研究エージェントモデルです。AIフィードバック強化学習(RLAIF)と強力な推論フレームワークを組み合わせ、ツール強化型大規模言語モデルにおいて信頼性が高く、アライメントされ、拡張可能な研究レベルの推論を実現し、複雑な多段階研究ワークフローに適しています。
nineninesix
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速、高音質のテキスト音声変換モデルです。2段階パイプラインを用いて、大規模言語モデルと高効率オーディオコーデックを組み合わせ、卓越した速度とオーディオ品質を実現します。このモデルはスペイン語をサポートし、4億のパラメータを持ち、サンプリングレートは22kHzです。
KaniTTSは、リアルタイム対話型人工知能アプリケーション向けに最適化された高速かつ高忠実度のアラビア語テキスト音声変換モデルです。2段階パイプラインアーキテクチャを採用し、大規模言語モデルと効率的なオーディオコーデックを組み合わせることで、卓越した速度とオーディオ品質を実現し、対話型AI、障害者支援、研究など多くの分野の音声合成ニーズを満たすことができます。
KaniTTSは、リアルタイム対話型AIアプリケーション向けに最適化された高速かつ高忠実度のテキスト音声変換モデルです。独自の2段階アーキテクチャにより、大規模言語モデルと効率的な音声コーデックを組み合わせ、低遅延で高品質な音声合成を実現します。リアルタイムファクターは最低0.2で、リアルタイム速度の5倍の高速合成が可能です。
LiquidAI
LFM2-VL-3BはLiquid AIが開発したマルチモーダル視覚言語モデルで、LFM2バックボーンアーキテクチャに基づいて構築されており、強力な視覚理解と推論能力を備えており、特に細粒度な感知タスクで優れた性能を発揮します。このモデルは、テキストと画像の入力を効率的に処理することができ、最大512×512解像度の原生画像処理をサポートしています。
citizenplain
これはWan2.1-T2V-14BモデルをベースにトレーニングされたLoRAアダプターで、テキストからビデオへの変換タスクに特化しています。このモデルはAIツールキットを使用してトレーニングされ、ビデオ生成アプリケーションをサポートします。
nvidia
NVIDIA GPT-OSS-120B Eagle3は、OpenAIのgpt-oss-120bモデルをベースに最適化されたバージョンで、ハイブリッドエキスパート(MoE)アーキテクチャを採用し、総パラメータ数が1200億、アクティブなパラメータ数が50億です。このモデルは商用および非商用の使用をサポートし、テキスト生成タスクに適しており、特にAIエージェントシステムやチャットボットなどのアプリケーション開発に適しています。
synap5e
これはOstrisによるAIツールキットを基に訓練されたテキストから動画へのLoRAモデルで、Wan2.2-T2V-A14Bをベースモデルとして使用し、テキストから動画への変換タスクをサポートし、関連分野のアプリケーションに強力なサポートを提供します。
Inbox Zeroは、オープンソースのAIメールアシスタント兼クライアントで、ユーザーが効率的にメールを管理し、受信トレイをゼロにするのを支援します。
wcgwはMCPサーバープロジェクトで、シェルとコードエディターツールが統合されており、AIがローカルマシン上でコマンドを実行し、ファイルを読み書きし、コードを編集するなどの操作ができます。アーキテクトモード、コード作成モードなどの複数のモードを提供し、タスクチェックポイント保存、ターミナル対話、構文チェックなどの機能をサポートしており、コード開発、問題解決などのシーンに適しています。
Einoは、Golang用に設計されたLLMアプリケーション開発フレームワークで、シンプルで拡張可能で信頼性が高く効率的なコンポーネント抽象化と編成機能により、AIアプリケーションの開発プロセスを簡素化することを目的としています。豊富なコンポーネントライブラリ、強力なグラフ編成機能、完全なストリーム処理サポート、および高度に拡張可能なアスペクトメカニズムを提供し、開発からデプロイまでの全サイクルのツールチェーンを網羅しています。
Refact AgentはオープンソースのAIプログラミングアシスタントで、多言語のコード生成、デバッグ、最適化をサポートし、主流の開発ツールと統合し、ローカルにデプロイでき、スマートなコード補完とコード解釈機能を提供します。
HiveChatは中小チーム向けに設計されたAIチャットアプリで、複数の大規模モデルサービスプロバイダーをサポートし、グループ管理、トークン制限、サードパーティログインなどの機能を提供します。
UnityMCPはUnityエディターのプラグインで、モデルコンテキストプロトコル (MCP) を実装し、UnityとAIアシスタントのシームレスな統合を提供します。リアルタイムの状態監視、リモートコマンドの実行、ログ機能が含まれます。
Zen MCPは多モデルAI協調開発サーバーで、ClaudeやGemini CLIなどのAIコーディングアシスタントに強化されたワークフローツールとモデル間のコンテキスト管理を提供します。これは複数のAIモデルのシームレスな協調をサポートし、コードレビュー、デバッグ、リファクタリングなどの開発タスクを実現し、異なるワークフロー間で会話のコンテキストを維持することができます。
Genkitは、AI駆動のアプリケーションを構築するためのオープンソースフレームワークで、Node.jsとGoのライブラリを提供し、複数のAIモデルとベクトルデータベースの統合をサポートし、開発ツールとプラグインエコシステムを含んでいます。
AWS MCPサーバーは、Model Context Protocolに基づく専用サーバーのセットであり、ドキュメント検索、知識ベース照会、CDKのベストプラクティス、コスト分析、画像生成など、さまざまなAWS関連機能を提供します。標準化されたプロトコルを通じてAIアプリケーションとAWSサービスの統合を強化することを目的としています。
Cipherは、プログラミングAIエージェント向けに設計されたオープンソースのメモリ層フレームワークです。MCPプロトコルを通じてさまざまなIDEとAIコーディングアシスタントと統合し、自動記憶生成、チーム記憶共有、デュアルシステム記憶管理などの核心機能を提供します。
Supabase MCPサーバーは、SupabaseプロジェクトとAIアシスタントを接続するツールです。Model Context Protocol(MCP)を通じて、大規模言語モデル(LLMs)と外部サービスのやり取りを標準化し、データベース管理、設定取得、データクエリなどの機能を実現します。
MCPアトラシアンは、アトラシアンの製品(ConfluenceとJira)用に設計されたモデルコンテキストプロトコルサーバーで、クラウドとオンプレミスの両方のデプロイをサポートし、AIアシスタントの統合機能を提供します。
MCP Unityは、Model Context Protocolを実装したUnityエディター拡張機能で、AIアシスタントがUnityプロジェクトとやり取りできるようにし、UnityとNode.jsサーバーの間の橋渡しを提供します。
XcodeBuild MCPは、AIアシスタントとMCPクライアントにXcode関連のツールを統合するサーバーで、Xcodeプロジェクト管理、シミュレーター制御、アプリユーティリティなどの機能をサポートし、開発プロセスの自動化を実現します。
Next.js開発ツールのMCPサーバーです。ClaudeやCursorなどのAIプログラミングアシスタントにNext.js開発ツールとユーティリティを提供します。実行時診断、開発自動化、およびドキュメントアクセス機能が含まれています。
Exa MCP Serverは、AIアシスタント(Claudeなど)にウェブ検索機能を提供するサーバーで、Exa AI検索APIを通じてリアルタイムで安全にウェブ情報を取得できます。
DeeboはAIデバッグアシスタントで、自動調査とマルチスレッドワークフローにより、コードエラーの解決プロセスを加速し、開発効率を向上させます。
hyper - mcpはWebAssemblyプラグインに基づく高性能MCPサーバーで、コンテナレジストリを通じたプラグイン配布をサポートし、さまざまなAIアプリケーションシーンに適しています。
デスクトップコマンダーMCPは、Claudeデスクトップアプリケーションがターミナルコマンドを実行し、ファイルシステムを管理できるAIアシスタントツールです。コードの検索、編集、プロセス管理、リモートファイルの読み取りなどの機能をサポートします。
AIワークフローにshadcn/uiコンポーネントの統合を提供するMCPサーバーで、React、Svelte、Vueフレームワークをサポートし、コンポーネントのソースコード、使用例、メタデータへのアクセス機能を備えています。