NexaAI
Qwen3-VL-8B-Thinkingは、アリババクラウドのQwenチームによって開発された80億パラメータのマルチモーダル大規模言語モデルで、深度マルチモーダル推論用に設計されており、ビジュアル理解、長文脈処理、構造化思考チェーン生成をサポートし、複雑な推論タスクで優れた性能を発揮します。
OmniNeuralは、世界初のニューラル処理ユニット(NPU)用に特別に設計された全マルチモーダルモデルで、テキスト、画像、音声をネイティブに理解し、PC、モバイルデバイス、自動車、IoT、ロボットなどの様々なデバイスで動作します。
NexaAI/Qwen3-4BはQwen3シリーズに基づく40億パラメータの大規模言語モデルで、思考モードと非思考モードのシームレスな切り替えをサポートし、推論、命令遵守、エージェント能力、多言語サポートの面で優れた性能を発揮します。
NexaAI/Qwen3-0.6BはQwen3シリーズに基づく0.6Bパラメータの言語モデルで、推論、指令の遵守、多言語対応などの面で優れた性能を発揮します。思考モードと非思考モードのシームレスな切り替えをサポートし、複雑な論理推論と効率的な汎用対話に適しています。
OpenAI Whisperアーキテクチャに基づいて微調整された自動音声認識と音声翻訳モデルで、デコード層の数を減らすことで大幅な速度向上を実現し、同時にオリジナル版に近い認識品質を維持します。
これはOpenAI GPT OSS 20BモデルのGGUFバージョンで、210億のパラメータを持ち、そのうち36億がアクティブなパラメータです。このバージョンはローカルデプロイメントと特定の使用シナリオに合わせて最適化されており、推論遅延を低減し、実行効率を向上させることを目的としています。
Gemma 3nはGoogle Gemmaモデルをベースにしたマルチモーダル軽量オープンソースモデルで、テキスト、画像、ビデオ、音声入力に対応し、低リソースデバイス向けに最適化されています。
Parakeet TDT 0.6B v2 MLXは、効率的な自動音声認識モデルで、句読点、大文字小文字、正確なタイムスタンプ予測をサポートし、最大24分のオーディオフラグメントを文字起こしできます。商用および非商用用途に適しています。
Kokoroは8200万パラメータのオープンソースのテキストを音声に変換するモデルで、軽量級のアーキテクチャを採用していますが、大型モデルに匹敵する品質を提供し、速度が速く、コストが低いという利点があります。Apacheライセンスを採用しており、本番環境や個人プロジェクトに適しています。
Qwen3-0.6BはQwen3シリーズに基づく大規模言語モデルで、テキスト生成をサポートし、独特な思考モード切り替え、強力な推論能力、多言語対応などの特性を持っています。
Qwen2.5-VLは画像テキストからテキストへのマルチモーダルモデルで、視覚理解、ビデオ処理、構造化出力などの分野で著しい向上が見られます。
Qwen2.5-Omni-3B-GGUFはエンドツーエンドのマルチモーダルモデルで、テキスト、画像、音声、ビデオなどの複数のモーダル情報を感知し、同時にストリーミング方式でテキストと自然な音声応答を生成することができます。
OmniAudioは、世界で最速かつ最も効率的なデバイス端末にデプロイ可能なオーディオ言語モデルで、26億のパラメータを持ち、テキストとオーディオ入力を処理できます。
NexaAIDev
世界最速かつ最も効率的なエッジデバイス向け音声言語モデル、2.6Bパラメータのマルチモーダルモデルで、テキストと音声入力を同時に処理可能。
Qwen2-Audioは先進的な小規模マルチモーダルモデルで、音声とテキスト入力をサポートし、音声認識モジュールに依存せずに音声インタラクションを実現します。
Qwen2-Audioは、音声とテキストの入力をサポートし、ASRモジュールを必要とせずに音声インタラクションが可能な、先進的な小規模マルチモーダルモデルです。
タコモデルV2は20億パラメータのオープンソース言語モデルで、Android APIの最適化を目的として開発され、機能トークン戦略を採用して推論速度と精度を向上させています。