YuanLab.aiはオープンソースのマルチモーダル大モデルYuan3.0Flashを発表しました。パラメータ規模は40Bで、スパースミックス・オブ・エキスパート構造を採用し、推論時には約3.7Bのパラメータのみがアクティブになります。これは効率を顕著に向上させます。モデルには16ビットおよび4ビットの重み、技術報告書およびトレーニング方法が含まれており、二次開発や業界カスタマイズをサポートし、AI技術の普及を促進します。
クーアクAIメガネは12月31日に初回OTAアップデートを完了し、録音メモ、図文ノート、多意的認識と実行、ブルーリング決済およびコミュニティサービスの5つの新機能を追加しました。また、翻訳やスケジュール照会などの既存機能も最適化されました。自社開発の音声強化モデルとハードウェア構成により、録音機能は10メートル範囲での明確な収音と効果的なノイズキャンセリングを実現しています。
快手副社長のジョウ・グオルイが退職すると暴露され、メタまたはティックトックに加入する可能性がある。彼の内部状態は休暇になっていると表示され、メールサインは「Log Out」に変更されている。ジョウ・グオルイは修士号を持ち、技術的な背景が深い。
2026年の「二新」政策がアップグレードされ、初めてスマートメガネやスマートホーム製品が旧品交換補助金の対象に含まれることになりました。インテリジェントな端末をパーソナライズされた消費者体系に統合することを促進します。この政策では、携帯電話、タブレット、スマートウォッチ、スマートメガネの4種類のデジタルおよびスマート製品に対して補助金が提供されることが明確にされています。
AIを使って、写真内の衣服を簡単に除去したり置き換えたりできます。プリセットやテキストプロンプトを使用でき、デザインスキルは不要です。
無料のAI音楽生成ツールで、テキストを著作権のない曲に変換できます。毎日5つの無料ポイントが提供されます。
テニスとピクボールのAIアプリで、スコア付け、統計、ライン判定などの機能を提供し、あなたの球技向上をサポートします。
無料でオンラインで音声をテキストに変換できます。登録不要で、1GBのファイルに対応し、高精度で多言語に対応しています。
Openai
$2.8
入力トークン/百万
$11.2
出力トークン/百万
1k
コンテキスト長
Google
$0.49
$2.1
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
Baidu
128
$6
$24
$2
$20
$4
$16
$8
$240
52
PrimeIntellect
INTELLECT-3は1060億のパラメータを持つ混合専門家(MoE)モデルで、大規模な強化学習によって訓練されています。数学、コーディング、推論のベンチマークテストで卓越した性能を発揮し、モデル、訓練フレームワーク、環境はすべて緩やかなライセンス契約でオープンソース化されています。
SerialKicked
これはQwen3-VL-32B-Thinking-hereticの量子化バージョンで、新しいアブレーション手法を用いて量子化されており、従来の手法と比べてベースモデルへの損傷が少ない。複数の量子化精度バージョンを提供し、24GB VRAMのデバイスでの実行に適しており、画像とテキストの変換タスクをサポートする。
gguf-org
flux2-dev-ggufは、FLUX.2-devに基づく画像から画像への変換モデルで、テキストプロンプトに基づいて特定のスタイルの画像を生成するために特別に設計されています。このモデルはComfyUI環境での実行をサポートし、テキスト記述をスタイル化されたビジュアルコンテンツに変換することができます。
Clemylia
ピカチュウ言語モデルはClemyliaが起こした独自の実験的な言語プロジェクトで、完全にゼロから訓練され、「ピカチュウ」の音声コーパスのみに基づいており、小型言語モデルがネイティブ言語のアイデンティティを創造する能力を示しています。
ostris
これはLoRA技術に基づくテキストから画像への変換モデルで、フランスの印象派画家ベルト・モリソーの芸術スタイルを持つ画像を生成するために特別に設計されています。このモデルはFLUX.2-devベースモデル上で訓練され、通常の画像またはテキスト記述をモリソースタイルの絵画に変換することができます。
TomoroAI
TomoroAI/tomoro-colqwen3-embed-4bは、高度なColPaliスタイルのマルチモーダル埋め込みモデルで、テキストクエリ、ビジュアルドキュメント(画像やPDFなど)、またはショートビデオをアラインされたマルチベクトル埋め込みにマッピングできます。このモデルは、Qwen3-VL-4B-InstructとQwen3-Embedding-4Bの長所を組み合わせ、ViDoReベンチマークテストで優れた性能を発揮し、同時に埋め込みに必要なスペースを大幅に削減します。
bartowski
これはsqu11z1のHypnos-i1-8Bモデルの量子化バージョンで、llama.cppツールと特定のデータセットを使用して量子化処理が行われています。このモデルはLlama-3アーキテクチャに基づいており、複数の量子化タイプを提供し、テキスト生成タスクをサポートし、推論や対話などの様々なアプリケーションシーンに適しています。
lightx2v
このリポジトリには、HunyuanVideo-1.5用に最適化された4ステップ蒸留モデルが含まれています。このモデルは、CFG(分類器なしガイダンス)を使用せずに、超高速の4ステップ推論を実現し、生成時間を大幅に削減すると同時に、高品質のビデオ出力を維持します。
noctrex
これはHuihui-MiroThinker-v1.0-30Bモデルに基づいて行われたMXFP4_MOE imatrix量子化バージョンで、テキスト生成タスクに特化して最適化されており、モデルの性能を維持しながら、モデルのサイズと推論コストを大幅に削減しています。
gia-uh
セシリアFT MS v1は、セシリア2B v0.1を微調整したキューバ言語モデルで、キューバスペイン語に特化して最適化されており、キューバの言語、文化、社会の微妙なニュアンスを捉えることができます。このモデルはスペイン語と英語をサポートし、主にテキスト生成タスクに使用されます。
black-forest-labs
FLUX.2 [dev] は320億のパラメータを持つ補正フロートランスフォーマーモデルで、画像生成、編集、および合成タスクに特化しています。このモデルは、テキストから画像への生成、単一参照編集、および多参照編集においてリーディングレベルであり、微調整なしでキャラクター、オブジェクト、およびスタイルの参照を実現し、個人、科学、および商業用途をサポートします。
Sachin-0001
これは🤗 Transformersライブラリに基づく双方向自己回帰Transformerモデルで、モデルセンターにアップロードされています。モデルカードはシステムによって自動生成され、具体的な技術詳細とアプリケーション情報はさらに補足する必要があります。
ubergarm
これはai-sage/GigaChat3-10B-A1.8B-bf16モデルのGGUF量子化バージョンで、高精度のQ8_0から極度に圧縮されたsmol-IQ1_KTまで、さまざまな量子化オプションを提供し、さまざまなハードウェア条件でのデプロイメントニーズを満たします。このモデルは32Kのコンテキスト長をサポートし、MLAアーキテクチャを採用し、対話シナリオに最適化されています。
OpenMMReasoner
OpenMMReasonerは完全に透明な二段階マルチモーダル推論方案で、教師あり微調整(SFT)と強化学習(RL)を含んでいます。この方案は、質の高いデータセットを精心に構築することで、複数のマルチモーダル推論ベンチマークテストで強力なベースラインモデルを上回り、将来の大規模マルチモーダル推論研究に堅実な実証的基礎を築きました。
mradermacher
これは vanta-research/atom-v1-preview-12b モデルの量子化バージョンで、複数の量子化タイプを選択でき、対話、協力、教育などの様々なシーンに適しています。このモデルは Gemma アーキテクチャに基づいており、英語の言語処理をサポートしています。
tencent
混元OCRは、混元の独自のマルチモーダルアーキテクチャによって駆動されるエンドツーエンドOCRの専門的なVLMモデルです。わずか10億パラメータの軽量設計で、複数の業界ベンチマークテストで最先端の成績を収めています。このモデルは、複雑な多言語ドキュメント解析に長けており、テキストの位置特定、オープンドメインの情報抽出、ビデオ字幕の抽出、画像の翻訳などの実際のアプリケーションシーンで優れた性能を発揮します。
これはMiniMax-M2-REAP-172B-A10BモデルのMXFP4_MOE量子化バージョンで、メモリ効率の高い圧縮モデルです。REAP(ルーティング重み付き専門家活性化剪定)方法を通じて、性能を維持しながらモデルを230Bパラメータから172Bパラメータに圧縮し、サイズを25%縮小し、リソース制限のある環境、ローカルデプロイ、および学術研究に適しています。
pnnbao-ump
VieNeu-TTS-1000hは、約1000時間の高品質ベトナム語音声データを基にトレーニングされた、先進的なベトナム語エッジ側テキスト音声変換モデルです。即時音声クローニング機能を備え、ベトナム語と英語のシームレスな切り替えをサポートし、CPUまたはGPU上で24kHz波形をリアルタイムで合成できます。
Foshie
これはGoogleのmT5-smallモデルをアマゾンのデータセットで微調整した英語からスペイン語への翻訳モデルで、テキスト要約生成タスクに特化しています。モデルは評価セットでRouge1: 16.44、Rouge2: 8.04のスコアを獲得しました。
Kiy-K
Fyodor-StarCoder2-7B-MoEはStarCoder2-7Bをベースにした強化版で、ハイブリッドエキスパートアーキテクチャを採用し、3つのMoE層、6つのエキスパートネットワーク、top-2ルーティングメカニズムを持ち、コード生成、関数呼び出し、エージェントタスクの分野で優れた性能を発揮します。
sitemcpは、ウェブサイト全体の内容を取得し、それをMCPサーバーとして使用できるツールで、カスタムマッチングページ、コンテンツセレクターなどの機能をサポートし、ドキュメントやブログサイトの迅速な検索に適しています。
wcgwはMCPサーバープロジェクトで、シェルとコードエディターツールが統合されており、AIがローカルマシン上でコマンドを実行し、ファイルを読み書きし、コードを編集するなどの操作ができます。アーキテクトモード、コード作成モードなどの複数のモードを提供し、タスクチェックポイント保存、ターミナル対話、構文チェックなどの機能をサポートしており、コード開発、問題解決などのシーンに適しています。
Testkubeは、クラウドネイティブアプリケーション向けのテストオーケストレーションと実行フレームワークで、テストの定義、実行、分析を行うための統一プラットフォームを提供します。既存のテストツールとKubernetesインフラストラクチャをサポートします。
これは、ブラウザ制御、芸術と文化、クラウドプラットフォーム、コマンドライン、通信、顧客データプラットフォーム、データベース、開発者ツール、データサイエンスツール、ファイルシステム、金融とフィンテック、ゲーム、知識と記憶、位置サービス、マーケティング、監視、検索、ユーティリティツールなど、複数のカテゴリをカバーする、継続的に更新されるMCPサーバーの選りすぐりのリストです。各プロジェクトにはGitHubリンクとスター数が付属しており、ユーザーがすぐに理解して使用できるようになっています。
Acemcpは、コードライブラリのインデックス化と意味検索を行うMCPサーバーです。自動増分インデックス、複数エンコーディングファイルの処理、.gitignore統合、およびWeb管理インターフェイスをサポートしており、開発者がコードのコンテキストをすばやく検索し、理解するのに役立ちます。
Haiku RAGは、LanceDB、Pydantic AI、Doclingを基盤とした高度な検索強化生成システムです。ハイブリッド検索、再ランキング、質問応答エージェント、多エージェント研究プロセスをサポートし、ローカルファーストのドキュメント処理とMCPサーバー統合を提供します。
HiveChatは中小チーム向けに設計されたAIチャットアプリで、複数の大規模モデルサービスプロバイダーをサポートし、グループ管理、トークン制限、サードパーティログインなどの機能を提供します。
UnityMCPはUnityエディターのプラグインで、モデルコンテキストプロトコル (MCP) を実装し、UnityとAIアシスタントのシームレスな統合を提供します。リアルタイムの状態監視、リモートコマンドの実行、ログ機能が含まれます。
MCP-Scanは、MCPサーバー用のセキュリティスキャンツールで、提示注入、ツール汚染、クロスドメインアップグレードなどの一般的なセキュリティホールを検出します。
MCPシールドは、MCPサーバーの脆弱性をスキャンするためのセキュリティツールです。ツール投毒攻撃、データ漏洩経路、クロスドメイン違反などのセキュリティリスクを検出することができます。
FastAPI - MCPは、FastAPIエンドポイントをモデルコンテキストプロトコル (MCP) ツールとして公開するライブラリで、組み込み認証機能を備え、柔軟なデプロイとASGI伝送をサポートします。
Awesome-MCP-ZHは、中国語ユーザー向けに作成されたMCP(モデルコンテキストプロトコル)のリソースコレクションです。MCPの基本的な説明、使い方、クライアント、サーバー、コミュニティリソースが含まれ、ユーザーがすぐにMCPを使い始めるのに役立ちます。
Rsdoctorは、Rspackエコシステム向けに開発されたビルド分析ツールで、webpackと完全に互換性があり、可視化ビルド分析、多次元パフォーマンス診断、インテリジェントな最適化提案を提供し、開発者がビルド効率とエンジニアリング品質を向上させるのに役立ちます。
Genkitは、AI駆動のアプリケーションを構築するためのオープンソースフレームワークで、Node.jsとGoのライブラリを提供し、複数のAIモデルとベクトルデータベースの統合をサポートし、開発ツールとプラグインエコシステムを含んでいます。
FastMCPは、TypeScriptに基づくフレームワークで、クライアントセッションをサポートするMCPサーバーを構築するために使用されます。ツール、リソース、プロンプトの簡単な定義を提供し、認証、セッション管理、画像と音声コンテンツの返却、ログ記録、エラー処理、SSE通信などの機能をサポートし、テストとデバッグ用のCLIツールも含まれています。
MCPアトラシアンは、アトラシアンの製品(ConfluenceとJira)用に設計されたモデルコンテキストプロトコルサーバーで、クラウドとオンプレミスの両方のデプロイをサポートし、AIアシスタントの統合機能を提供します。
OpenSumiは、AIネイティブのIDE製品を迅速に構築するのに役立つフレームワークで、クラウドとデスクトップの開発環境をサポートし、豊富なサンプルプロジェクトとテンプレートを提供します。
XcodeBuild MCPは、AIアシスタントとMCPクライアントにXcode関連のツールを統合するサーバーで、Xcodeプロジェクト管理、シミュレーター制御、アプリユーティリティなどの機能をサポートし、開発プロセスの自動化を実現します。
Apple MCPツールセットは、MCPプロトコルに基づくAppleのネイティブツールセットで、メッセージ、メモ、連絡先、メール、リマインダー、カレンダーなどのAppleエコシステムの統合サービスを提供します。
デスクトップコマンダーMCPは、Claudeデスクトップアプリケーションがターミナルコマンドを実行し、ファイルシステムを管理できるAIアシスタントツールです。コードの検索、編集、プロセス管理、リモートファイルの読み取りなどの機能をサポートします。