Firefox新版でAI機能がデフォルトで有効になっていることにより論議が起きている。ユーザーはプライバシーとパフォーマンスの問題を懸念している。テストでは有効化後にCPUおよびメモリ使用量が顕著に増加し、ブラウジング体験に悪影響を与えることが判明しており、多くのユーザーはそのことを知らなかった。
マイクロソフトAzure ND GB300v6仮想マシンがLlama270Bモデルで110万トークン/秒の推論速度を達成。NVIDIA GB300NVL72システム(72個Blackwell Ultra GPU+36個Grace CPU)を採用し、大規模AI処理における技術力を示した。....
Appleが14インチMacBook Proを発表、M5チップ搭載。AIタスク向けにハードウェア最適化を初導入。10コアCPU/GPU、各GPUコアにニューラルエンジン内蔵。第3世代レイトレーシングとダイナミックキャッシュ技術を採用。バッテリー駆動24時間、AI処理とグラフィック性能を強化。....
ソフトバンクとOpenAIが協力を強化。OpenAIはArmとCPUを共同開発し、ブロードコムとAI XPUを開発、独自のチップアーキテクチャを構築し、強力なAIハードウェアシステムを目指す。....
Firefoxブラウザの翻訳機能向けに最適化された、CPUアクセラレーション対応のニューラル機械翻訳モデルです。
CPUのみで動作するデバイス上で、30fpsのリアルタイム推論を実現する、音声駆動型のリアルタイム2Dチャットアバター生成モデルです。
高性能CPU搭載ローカルオフラインLaTeX認識ツール
CPU上での低ビット大型言語モデルの推論加速
Qwen
Qwen3 - VLは通義シリーズで最も強力なビジュアル言語モデルで、ハイブリッドエキスパートモデルアーキテクチャ(MoE)を採用し、GGUF形式の重みを提供し、CPU、GPUなどのデバイスで効率的な推論をサポートします。モデルは、テキスト理解、ビジュアル感知、空間理解、動画処理などの面で全面的にアップグレードされています。
Qwen3-VL-2B-ThinkingはQwenシリーズの中で最も強力なビジュアル言語モデルの1つで、GGUF形式の重みを使用し、CPU、NVIDIA GPU、Apple Siliconなどのデバイスで効率的な推論をサポートします。このモデルは、優れたマルチモーダル理解と推論能力を備え、特にビジュアル感知、空間理解、エージェントインタラクション機能が強化されています。
Qwen3-VLは通義シリーズで最も強力な視覚言語モデルで、優れたテキスト理解と生成能力、深い視覚感知と推論能力、長文脈サポート、強力な空間およびビデオ動的理解能力、ならびにエージェントインタラクション能力を備えています。このリポジトリはGGUF形式の重みを提供し、CPU、GPUなどのデバイスでの効率的な推論をサポートします。
Qwen3-VL-2B-Instruct-GGUFは通義千問シリーズのマルチモーダルビジュアル言語モデルのGGUF量子化バージョンで、20億のパラメータを持ち、画像理解とテキスト生成のシームレスな融合をサポートし、CPUやGPUなどのデバイスで効率的に動作します。
LeviDeHaan
SecIntは、リアルタイムのnginxセキュリティログ分類に対して微調整されたSmolLM2-360Mモデルです。Webサーバーログ内のセキュリティ脅威、エラー、および正常なトラフィックパターンを自動的に検出することを目的としており、精度は99%を超え、CPU上でリアルタイム検出を実現できます。
pnnbao-ump
VieNeu-TTSは、個人デバイス上で動作可能な最初のベトナム語のテキスト音声変換モデルで、即時音声クローニング機能を備えています。NeuTTS Airをベースに微調整され、自然でリアルなベトナム語音声を生成でき、CPU上でリアルタイム性能を備えています。
sanchezalonsodavid17
これはDeepSeek-OCRのモーダルバランス量子化(MBQ)バリエーションで、ビジュアルエンコーダに4ビットNF4量子化を採用することでメモリ使用量を削減し、同時にプロジェクターと言語/デコーダのBF16精度を維持し、一般的なGPUでのローカルデプロイメントと高速なCPU試験が可能です。
kenpath
Svara-TTSはインド語を対象としたオープンソースの多言語テキスト読み上げモデルで、19種類の言語(18種類のインド語 + インド英語)をサポートしています。このモデルはOrpheusスタイルの離散音声トークン方式に基づいて構築され、一般的なGPU/CPU上で明瞭で表现力に富み、低遅延の音声合成を実現することを目的としています。
MikeKuykendall
これはDeepSeek社のDeepSeek - MoE - 16BモデルのQ4_K_M量子化バージョンで、llama.cppのRustバインディングを通じてMoE(専門家混合)のCPUオフロード機能が有効になっており、VRAMの使用量を大幅に削減します。
これはWeOpenMLに基づくGPT-OSS 20BモデルのGGUF形式のバージョンで、革新的なMoE CPUエキスパート卸載技術を初めて実現しました。この技術は、完全な生成品質を維持しながら、99.9%のVRAM削減を実現し、200億パラメータのハイブリッドエキスパートモデルを2MBのVRAMで実行できます。
bartowski
これはTheDrummer/Snowpiercer-15B-v3モデルのGGUF量子化バージョンで、高品質から低メモリ使用量までのさまざまな量子化オプションを提供し、CPUとGPUでの効率的な実行をサポートしています。モデルはllama.cppを使用して量子化され、さまざまなハードウェアに対して最適化されています。
vito95311
これはQwen3-Omni 31.7Bパラメータモデルの専用量子化バージョンで、先進的なINT8+FP16混合精度量子化技術を採用し、メモリ使用量を50%以上削減し、スマートなGPU/CPU混合推論をサポートし、大型マルチモーダルモデルをコンシューマーレベルのハードウェアで効率的に動作させることができます。
ModernVBERT
ColModernVBERTはModernVBERTの後期インタラクティブバージョンで、ビジュアルドキュメント検索タスクに特化して微調整され、このタスクで最も高い性能を発揮するモデルです。これは2.5億のパラメータを持つコンパクトなビジュアル - 言語エンコーダで、ビジュアルドキュメントベンチマークテストではパラメータが約10倍のモデルに匹敵する性能を達成し、同時にCPU上でも十分な推論速度を持っています。
SkynetM1
このモデルはhuihui-ai/Huihui-Tongyi-DeepResearch-30B-A3B-abliteratedをベースに変換されたGGUF形式のバージョンで、llama.cpp用に最適化され、効率的なCPU推論をサポートしています。モデルはQ4_K_M量子化レベルを採用し、良好なパフォーマンスを維持しながらモデルサイズを大幅に縮小しています。
samunder12
Llama 3.1 8B Instructをベースに微調整されたGGUF量子化モデルで、強勢的で断固とした、かつ挑発的なAIのキャラクター設定を持ち、ロールプレイングやクリエイティブなライティングシーンに最適化されており、CPUまたはGPUでのローカル推論をサポートしています。
DavidAU
OpenAIのgpt-oss-120bモデルをベースに最適化された大規模言語モデルで、NEOデータセットを使用して性能を向上させています。多シナリオアプリケーションをサポートし、CPU、GPU、または部分的なオフロードモードで実行でき、128kのコンテキスト長と最大128個の専家を持つ混合専家アーキテクチャを備えています。
これはQwen 3プラットフォームに基づくコーディング/プログラミングモデルで、完全な推論能力を備え、速度が非常に速いです。中程度のハードウェアでは1秒あたり150以上のトークンを処理でき、CPUのみを使用しても1秒あたり50以上のトークンを処理できます。これは汎用的なコーディングモデルで、コードブロックの生成、コーディングのアイデアの構想、およびコード草稿の迅速な生成に適しています。
Menlo
Lucyは、17億パラメータのQwen3 - 1.7Bをベースに構築された軽量の自主型ウェブ検索モデルで、モバイルデバイス向けに最適化されており、CPU上で効率的に動作します。
pytorch
SmolLM3-3B-INT8-INT4は、HuggingFaceTB/SmolLM3-3Bモデルを量子化したバージョンで、torchaoを使用して8ビット埋め込み、8ビット動的活性化、および4ビット重みの線形量子化を実現しています。このモデルはExecuTorch形式に変換され、最適化によりCPUバックエンドで高性能を実現し、特にモバイルデバイスへのデプロイに適しています。
rasyosef
これはBERT-Mini(1100万パラメータ)に基づくSPLADE疎な検索モデルで、MSMARCOデータセット上でクロスエンコーダに対する知識蒸留訓練によって得られました。このモデルは公式のsplade-v3-distilbertよりも6倍小さいですが、その85%の性能を達成でき、CPU上で数千の文書を処理することができます。
Talos SDKをベースにしたシンプルなMCP実装で、複数のTalosノードからディスク、ネットワークインターフェイス、CPU、メモリの使用状況などのデータを取得し、ノードの再起動をサポートします。
Gradioベースの軽量アプリで、Hugging Face Transformersを使用して感情分析と皮肉検出を行い、MCPアーキテクチャと互換性があり、CPU上で実行できます。
MCPプロトコルに基づくMacシステム監視サーバーで、CPU、メモリ、ディスクの使用状況を監視できます
リアルタイムのシステム情報を提供するMCPサーバーで、CPU、メモリ、ディスク、ネットワークなどの指標を取得でき、クロスプラットフォームで動作し、標準化されたインターフェースを通じてアクセスできます。
Perfetto MCPは、自然言語のプロンプトを専門的なPerfettoトレース分析に変換するモデルコンテキストプロトコルサーバーです。開発者はSQLを記述することなく、パフォーマンス分析、ANR検出、CPUホットスポットスレッドの識別、ロック競合分析、およびメモリリーク検出を行うことができます。
Claudeにリアルタイムのシステム監視機能を提供するMCPサーバーで、CPU、メモリ、ディスク、ネットワーク、バッテリー、インターネット速度などの指標を監視できます。
Claudeにリアルタイムシステム監視機能を提供するMCPサーバーで、CPU、メモリ、ディスク、ネットワーク、バッテリー、インターネット速度の監視をサポートします。