iOS26でFoundation Modelsを導入、AI大モデルをオフラインで無料利用可能に。アプリ「Lil Artist」が「AIストーリーメーカー」機能を追加、キャラクター選択でパーソナライズストーリー生成。....
魔搭ModelScopeコミュニティは、マイクロCPM-V4.0という新しいマルチモーダルモデルが正式にオープンソース化されたことを発表しました。4Bのパラメータ数を持つこのモデルは、OpenCompass、OCRBench、MathVistaなどのベンチマークで同クラスで最良の結果を達成し、スマートフォンなどのモバイルデバイスでも安定して滑らかに動作しています。さらに、公式には推論およびデプロイツールであるMiniCPM-Vもオープンソース化しています。
ステップスターのチームは、最新版ベースモデルStep3が正式にオープンソース化されたことを発表しました。Step3は、パフォーマンスとコストの最適なバランスを追求する企業や開発者向けに設計されたモデルであり、推論時代に最も適したモデルを目指して構築されています。このモデルのオープンソースの場所には、Github、Hugging Face、そしてマダ(ModelScope)があります。開発者は自由にダウンロードして体験できます。Step3はMoEアーキテクチャを採用し、総パラメータ数は3210億で、アクティブパラメータ数は380億です。
2025年のWWDCカンファレンスで、アップル社はその人工知能技術をデベロッパー・コミュニティに公開し、Foundation Modelsフレームワークとアップグレード版のXcode26を発表しました。これは、アップルがAI開発ツール分野で大きな進展を遂げたことを示しています。Foundation Modelsフレームワーク:プライバシー重視のAI統合ソリューション アップルの新しいFoundation Modelsフレームワークは、開発者向けに、独自のAIモデルをアプリケーションに直接埋め込むための集約されたツールセットを提供します。この框
映画レベルの高画質ビデオを生成可能な画像からビデオへの変換モデル
GitHub上で構築された次世代AIエンジニア向けサービス
ModelScopeモデルと現実世界を繋ぐエージェントフレームワーク
コードインテリジェンスタスクに使用される、116種類のプログラミング言語をサポートするオープンソースの基本モデルです。
amd
PARD is a high-performance speculative decoding method that can convert autoregressive draft models into parallel draft models at low cost, significantly accelerating the inference of large language models.
modelscope
Nexus-Genは大規模言語モデルの言語推論能力と拡散モデルの画像生成能力を融合させた統合モデルです
UCSC-VLAA
VLAA-Thinkerは革新的な視覚言語モデルで、画像とテキストの入力を同時に処理し、高品質なテキスト出力を生成することができます。このモデルは論文「SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models」の研究成果に基づいて開発され、R1に類似した推論能力に焦点を当てています。
Gemini
GemmaX2-28-9B-v0.1-Q2_K-GGUF は ModelSpace/GemmaX2-28-9B-v0.1 から変換された GGUF 形式モデルで、多言語翻訳タスクをサポートします。
ModelsLab
フィッシュスピーチ V1.5は、100万時間以上の多言語音声データでトレーニングされた最先端のテキスト読み上げ(TTS)モデルです。
T5-baseベースのプロンプト強化モデルで、短いプロンプトを詳細な記述に拡張可能
これはOpenCLIPフレームワークに基づき、LAION-2B英語サブセットで訓練された視覚言語モデルで、ゼロショット画像分類やクロスモーダル検索タスクに優れています。
ControlNet++は強力な画像生成と編集モデルで、複数の制御条件をサポートし、高解像度の画像を生成でき、視覚的な効果はMidjourneyに匹敵します。
Apache-2.0ライセンスに基づくオープンソースモデル。具体的な機能と用途については完全なドキュメントを参照してください
hazyresearch
M2-BERT-8Kは8000万パラメータの長文検索モデルで、論文『Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT』で提案されたアーキテクチャに基づいています。
Llama3-8b-instructベースモデルをトレーニングし、中国語汎用シーンに適応、ReACTフォーマットのインテリジェントエージェント呼び出しをサポート
rjhugs
microsoft/table-transformer-structure-recognition-v1.1-allを基にファインチューニングした表構造認識モデル
M2-BERT-128は論文『Benchmarking and Building Long-Context Retrieval Models with LoCo and M2-BERT』で提案された8000万パラメータの検索モデルチェックポイント
Noob
これはDDPM(Denoising Diffusion Probabilistic Models)に基づく無条件画像生成モデルで、蝶の画像に特化してファインチューニングされています。
openskyml
SDXL-Turboをベースとしたテキストから画像への生成モデルで、LCM(Latent Consistency Models)とLoRA(Low-Rank Adaptation)技術を組み合わせ、高速かつ高品質な画像生成を実現します。
cerspense
Modelscopeベースの透かしなし動画生成モデル、16:9画面比率と滑らかな動画出力を最適化
kaveh
これは全スライド画像(WSI)を生成するための拡散モデルで、Denoising Diffusion Probabilistic Models(DDPM)アーキテクチャに基づいています。
vdo
diffusersベースのテキスト・トゥ・ビデオモデルで、ModelScopeのファインチューニングによりアニメスタイルを実現、トレーニング解像度は512x512ピクセルです。
strangeman3107
これはdiffusersベースのテキスト・トゥ・ビデオモデルで、modelscopeでファインチューニングされアニメ風の外観を持ち、448x384解像度をサポートします。
ali-vilab
多段階テキストから動画を生成する拡散モデルで、英語の説明テキストを入力すると、テキストの内容に合った動画を生成します