MiniMaxがM2.5モデルを発表。108日間で3回目のアップグレードとなるM2シリーズの最新版。プログラミング・検索・オフィス作業など多分野で高性能を発揮し、能力・効率・コストの三要素を革新。オープンソース版をModelScopeで公開、ゼロコード使用からプライベート展開まで対応。低コストAgent時代の実現を目指す。....
MiniMaxはM2.1プログラミングモデルをオープンソースでリリースしました。このモデルはHugging Face、ModelScope、GitHubで利用可能となっており、開発者が簡単に導入できます。このモデルはvLLMDay-0のサポートを受け、効率的な推論を即座に実現でき、KTransformers技術によってパフォーマンスが最適化されています。
Liquid AIは2025年7月に第2世代のLiquid Foundation Models(LFM2)を発表しました。独自の「liquid」アーキテクチャを採用し、市場で最も高速な端末ベースの基本モデルを目指しています。高い訓練および推論能力により、小規模モデルがクラウド上の大規模言語モデルと競い合えるようにしました。LFM2はまず350M、700M、および1.2Bパラメータを持つ密度的なチェックポイントバージョンとして提供されます。
アリババの通義千問チームがNeurIPS 2025で最優秀論文賞を受賞。論文『Attention Gating Makes Better Foundation Models』は「スライドゲート」機構を提案し、標準アテンション後に学習可能なゲートを追加して重要ヘッドとトークンを動的に選別。1.7Bパラメータモデルが15B MoEモデルと同等性能を達成。応募2万件中4作品の受賞作で唯一の中国成果。....
映画レベルの高画質ビデオを生成可能な画像からビデオへの変換モデル
GitHub上で構築された次世代AIエンジニア向けサービス
ModelScopeモデルと現実世界を繋ぐエージェントフレームワーク
コードインテリジェンスタスクに使用される、116種類のプログラミング言語をサポートするオープンソースの基本モデルです。
Moonshot
$200
入力トークン/百万
出力トークン/百万
131
コンテキスト長
amd
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.
modelscope
Nexus-Genは大規模言語モデルの言語推論能力と拡散モデルの画像生成能力を融合させた統合モデルです
UCSC-VLAA
VLAA-Thinkerは革新的な視覚言語モデルで、画像とテキストの入力を同時に処理し、高品質なテキスト出力を生成することができます。このモデルは論文「SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models」の研究成果に基づいて開発され、R1に類似した推論能力に焦点を当てています。
Gemini
GemmaX2-28-9B-v0.1-Q2_K-GGUF は ModelSpace/GemmaX2-28-9B-v0.1 から変換された GGUF 形式モデルで、多言語翻訳タスクをサポートします。
ModelsLab
フィッシュスピーチ V1.5は、100万時間以上の多言語音声データでトレーニングされた最先端のテキスト読み上げ(TTS)モデルです。
T5-baseベースのプロンプト強化モデルで、短いプロンプトを詳細な記述に拡張可能
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
ControlNet++は強力な画像生成と編集モデルで、複数の制御条件をサポートし、高解像度の画像を生成でき、視覚的な効果はMidjourneyに匹敵します。
Apache-2.0ライセンスに基づくオープンソースモデル。具体的な機能と用途については完全なドキュメントを参照してください
hazyresearch
M2-BERT-8Kは8000万パラメータの長文検索モデルで、論文『Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT』で提案されたアーキテクチャに基づいています。
Llama3-8b-instructベースモデルをトレーニングし、中国語汎用シーンに適応、ReACTフォーマットのインテリジェントエージェント呼び出しをサポート
rjhugs
microsoft/table-transformer-structure-recognition-v1.1-allを基にファインチューニングした表構造認識モデル
M2-BERT-128は論文『Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT』で提案された8000万パラメータの検索モデルチェックポイント
Noob
これはDDPM(Denoising Diffusion Probabilistic Models)に基づく無条件画像生成モデルで、蝶の画像に特化してファインチューニングされています。
openskyml
SDXL-Turboをベースとしたテキストから画像への生成モデルで、LCM(Latent Consistency Models)とLoRA(Low-Rank Adaptation)技術を組み合わせ、高速かつ高品質な画像生成を実現します。
cerspense
Modelscopeベースの透かしなし動画生成モデル、16:9画面比率と滑らかな動画出力を最適化
kaveh
これは全スライド画像(WSI)を生成するための拡散モデルで、Denoising Diffusion Probabilistic Models(DDPM)アーキテクチャに基づいています。
vdo
diffusersベースのテキスト・トゥ・ビデオモデルで、ModelScopeのファインチューニングによりアニメスタイルを実現、トレーニング解像度は512x512ピクセルです。
strangeman3107
これはdiffusersベースのテキスト・トゥ・ビデオモデルで、modelscopeでファインチューニングされアニメ風の外観を持ち、448x384解像度をサポートします。
ali-vilab
多段階テキストから動画を生成する拡散モデルで、英語の説明テキストを入力すると、テキストの内容に合った動画を生成します
ModelScopeの画像生成APIをベースにしたMCPサーバーで、自然言語のプロンプトによる非同期画像生成をサポートし、画像を自動的にローカルファイルとして保存します。