XiaomiMiMo
米モデルのエンボディメントモデル(MiMo-Embodied)は、強力なクロスエンボディメント視覚言語モデルであり、自動運転とエンボディメントAIタスクの両方で卓越した性能を発揮します。これは、この2つの重要な分野を結合した最初のオープンソースの視覚言語モデルであり、動的な物理環境における理解と推論能力を大幅に向上させました。
MiMo Audioは小米が開発した音声言語モデルで、大規模な事前学習により強力な少サンプル学習能力を発揮します。このモデルは、従来のモデルが特定のタスクの微調整に依存する限界を突破し、音声インテリジェント、音声理解などのタスクで優れた性能を発揮し、オープンソースモデルの中で先進的なレベルに達しています。
MiMo Audioは大規模事前学習に基づく音声言語モデルで、音声インテリジェンスと音声理解のベンチマークテストでオープンソースモデルのSOTA性能を達成しました。このモデルは強力な少サンプル学習能力を示し、学習データに含まれないタスクに汎化でき、音声変換、スタイル移行、音声編集などのさまざまな音声タスクをサポートします。
bartowski
これはXiaomiMiMoのMiMo-VL-7B-SFT-2508モデルの量子化バージョンで、llama.cppを使用して最適化処理され、特定のハードウェア上でのモデルの実行性能を向上させることを目的としています。このモデルは70億パラメータの視覚言語モデルで、画像からテキストを生成するタスクをサポートしています。
これは小米MiMo-VL-7B-RL-2508モデルのGGUF量子化バージョンで、llama.cppのimatrixオプションを使用して量子化処理を行い、複数の量子化レベルをサポートし、さまざまなハードウェア構成とパフォーマンス要件に適しています。
benxh
これはXiaomiMiMo/MiMo-VL-7B-RL-2508モデルのGGUF量子化バージョンで、Q6_K量子化レベルを採用しています。このモデルは7Bパラメータ規模のマルチモーダル視覚言語モデルで、画像とテキストの統合理解と生成タスクをサポートしています。
MiMo-VLはコンパクトで強力なビジュアル言語モデルで、ネイティブ解像度ViTエンコーダ、MLPプロジェクター、MiMo-7B言語モデルを組み合わせており、マルチモーダル推論などのタスクで優れた性能を発揮します。このモデルは複数のベンチマークテストで良好な結果を収め、思考制御機能を備えており、ユーザー体験が大幅に向上しています。
MiMo-VLはコンパクトで強力なビジュアル言語モデルで、ネイティブ解像度ViTエンコーダー、MLPプロジェクター、および複雑な推論タスク用に最適化されたMiMo-7B言語モデルを組み合わせています。多段階の事前学習と事後学習により、複数のビジュアル言語タスクで優れた成績を収めています。
MiMoは、推論タスク用に最初からトレーニングされた一連の7Bパラメータモデルで、事前学習と事後学習の戦略を最適化することで、数学とコードの推論タスクで優れた性能を発揮します。
MiMo-7Bは、推論タスクに特化して設計された小米の言語モデルシリーズで、基本モデル、SFTモデル、RLモデルを含み、数学とコード推論タスクで優れた性能を発揮します。
MiMo-7B-RLはMiMo-7B-SFTモデルを基に強化学習で訓練されたモデルで、数学とコード推論タスクで優れた性能を発揮し、OpenAI o1-miniに匹敵する性能を持っています。
小米が開発した7Bパラメータ規模の推論専用言語モデルシリーズ。事前学習と事後学習の戦略を最適化することで、数学とコードの推論能力を大幅に向上させました。
MiMo-7B-RLはMiMo-7B-SFTモデルを基に強化学習でトレーニングされたモデルで、数学とコード推論タスクにおいてOpenAI o1-miniと肩を並べる性能を発揮します。