Meta AIがPixio画像モデルを発表。MAEフレームワークを改良し、深さ推定や3D再構築などのタスクで優れた性能を発揮し、従来の複雑なアルゴリズムに対するMAEの限界に挑戦。....
原力霊機チームは、従来の視覚-言語-行動モデルが複雑な環境で2D画像に依存しているため、空間認識が不足している問題に対処するために、新しい方法を提案しました。この方法は、ロボットが3次元空間の深度と位置をより正確に判断できるようにすることを目的としています。
上海で全国初の都市計画AIモデル「雲宇星空」を発表。6000億パラメータでリモートセンシング画像や3Dデータを統合し、AI都市プランナーを目指す。業界基盤と6つの専門エージェントで構成され、都市計画・行政分野をカバー。....
「雲宇星空大モデル(プロフェッショナル版)」は、全国初の計画資源分野向け基礎大モデルで、6000億パラメータを有する。リモートセンシング画像、3D実景、計画図面、行政文書を統合し、「1つの業界基盤大モデル+6つの専門エージェント」アーキテクチャを採用。業界の空白を埋め、大都市管理の科学化・知能化を推進。競争力は全国初の計画資源専用コーパス「坤輿経」に基づく。....
マイクロソフトのTrellis 2 AIは、画像をPBRテクスチャ付きの高品質3Dモデルに迅速に変換します。
MetaのSAM 3Dモデルをベースに、単一の画像を瞬時に高品質な3Dモデルに変換できます。
無料のAI写真編集ツールで、クレイティブな編集を迅速に実現します。
高度なAI技術を用いて、テキストや画像を瞬時に3Dモデルに変換でき、3Dモデリングの経験が不要です。
Google
$0.49
入力トークン/百万
$2.1
出力トークン/百万
1k
コンテキスト長
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$1
$10
256
$6
$24
Baidu
128
$2
$20
$4
$16
HIT-TMG
Uni-MoE 2.0-Omniは、ライチ科技(Lychee)が発表した完全オープンソースの全モーダリティモデルで、全モーダリティ3D RoPEと動的容量エキスパート混合アーキテクチャを採用し、言語を中心としたマルチモーダリティ理解、推論、生成能力を大幅に向上させました。このバージョンには、全モーダリティ理解とオーディオおよび画像生成能力が統合されています。
GatorBarbarian
TRELLIS Text XLは大型の3D生成モデルで、TRELLISのテキスト条件付きバージョンで、モデルサイズはXLです。このモデルは論文「Structured 3D Latents for Scalable and Versatile 3D Generation」に基づいて提案され、テキスト記述に基づいて高品質の3Dコンテンツを生成することができます。
Ashmotv
animat3d_style_wan-loraは、OstrisによるAIツールキットを基にトレーニングされたLoRAモデルで、テキストからビデオへの生成に特化しており、画像生成に独特な3Dアニメーションスタイルの効果をもたらします。このモデルはWan2.2 - T2V - A14Bベースモデルを基に微調整されており、複数の主流のAIプラットフォームで使用できます。
facebook
MapAnythingはエンドツーエンドでトレーニングされたTransformerモデルで、複数のモードを入力として受け取り、シーンの分解測度3D幾何構造を直接回帰することができます。このモデルは、多画像SfM、多視点立体視、単眼測度深度推定など、12種類以上の異なる3D再構築タスクをサポートしています。
manycore-research
FLUX.1-Layout-ControlNetはSpatialGenフレームワークの重要なコンポーネントで、セマンティック画像条件付きのControlNetモデルです。これはテキスト記述に基づいて2D画像を生成することができ、同時に入力されたセマンティック画像のレイアウト制約を厳密に遵守し、主に3D室内シーン合成に使用されます。
yslan
STream3Rは、因果Transformerに基づく拡張可能なシーケンス3D再構築モデルであり、点群図予測をデコーダのみのTransformer問題として再定義します。ストリーミング処理フレームワークを導入し、因果アテンションを利用して画像シーケンスを効率的に処理し、従来の方法がしばしば失敗する動的シーンを含む、様々な挑戦的なシーンにうまく汎化できます。
nvidia
ESM - 2はNVIDIAがTransformerEngineを基に最適化したタンパク質言語モデルで、アミノ酸配列からタンパク質の3D構造を予測できます。このモデルはマスク言語モデリングの目標で訓練され、NVIDIA GPU上でより高速な訓練と推論速度を持ちます。
ilkerzgi
これはLoRAモデルで、通常の画像を黒色背景と3D視点の金属スタイルの画像に変換できます。
lhjiang
AnySplatは、高度な3Dガウス散点レンダリングモデルで、異なる視点の画像から効率的に高品質の3Dシーンを生成することができます。このモデルは、高速推論能力と良好な汎化性能を持ち、3D再構築とレンダリングに革新的な解決策を提供します。
shakamone
TRELLISは画像条件に基づく大規模3D生成モデルで、構造化された3D潜在変数を使用してスケーラブルで多機能な3D生成を実現します。
davidleiva4999
TRELLISのテキスト条件付きバージョンで、XL大規模モデルを採用した強力な3D生成モデルです。
unsloth
InternVL3-78B-Instructは、マルチモーダル知覚、推論、言語処理などの分野で優れた性能を発揮する先進的なマルチモーダル大規模言語モデルです。このモデルは、ネイティブマルチモーダル事前学習手法を用いて、視覚と言語の学習を統一した学習段階に統合し、ツールの使用、GUIエージェント、産業用画像分析、3D視覚知覚などの多くの分野で卓越した能力を発揮します。
InternVL3-2B-Instructは先進的なマルチモーダル大規模言語モデルで、前代と比べてより優れたマルチモーダル感知と推論能力を持ち、ツール使用、GUIエージェント、産業画像分析、3Dビジョン感知などの分野を拡張しています。原生のマルチモーダル事前学習方法を採用し、言語学習とビジョン学習を単一の事前学習段階に統合しています。
InternVL3-14B-Instructは先進的なマルチモーダル大規模言語モデル(MLLM)で、優れたマルチモーダル知覚と推論能力を示し、ツール使用、GUIエージェント、産業画像分析、3D視覚知覚など様々なタスクをサポートします。
ImrozeAslamMalik
LGMはマルチビュー拡散モデルを統合した画像から3Dへのワークフローで、単一画像から高品質な3Dコンテンツを生成できます。
InternVL3 - 78Bは、高度なマルチモーダル大規模言語モデルで、卓越したマルチモーダル認知と推論能力を備え、ツール使用、GUIエージェント、産業用画像分析、3D視覚認知などの分野で優れた性能を発揮し、全体的なテキスト性能も非常に高い。
InternVL3-14Bは、先進的なマルチモーダル大規模言語モデルで、InternVL 2.5をベースにマルチモーダル感知と推論能力を大幅に向上させ、ツール使用、GUIエージェント、工業画像分析、3D視覚感知などの分野での応用を拡大しています。
Surn
TRELLIS画像条件バージョンは、画像から3Dコンテンツを生成できる大規模3D生成モデルです。
larsquaedvlieg
TRELLISはテキスト条件付きの大規模3D生成モデルで、構造化された3D潜在変数を使用してスケーラブルで多機能な3Dコンテンツ生成を実現します。
TRELLISは構造化3D潜在変数を用いて、スケーラブルで多機能な3Dコンテンツ生成を実現する大規模3D生成モデルです。
BlenderMCPはMCPプロトコルを通じてBlenderとClaude AIを接続し、AIによる3Dモデリングとシーン制御を実現します
Blender MCP VXAIは強力な統合ツールで、ユーザーが自然言語でBlenderを制御し、3Dモデリング、アニメーション、シーンの作成と修正を実現できます。複雑な操作を簡素化し、リアルタイムでプロジェクトにエクスポートすることをサポートします。
RhinoMCPは、Model Context Protocolを通じてRhino 3DモデリングソフトウェアとAIエージェントを接続するツールで、双方向のやり取りを実現し、3Dオブジェクト操作、ドキュメント検査、およびスクリプト実行をサポートします。
FreeCAD MCPはClaude DesktopでFreeCADを制御するプラグインで、2D図面から3Dモデルを作成するなど、さまざまな設計機能をサポートしています。
Trellis MCPはAIアシスタントとTrellis 3D生成モデルをつなぐインターフェースサービスで、自然言語で迅速に3Dアセットを生成してBlenderにインポートできます。このプロジェクトはオープンソースモデルに基づいており、APIバックエンドを自分でデプロイする必要があり、高速で無料という特徴がありますが、安定性のリスクがあります。
SketchupMCPは、モデルコンテキストプロトコル(MCP)を通じてSketchupとClaude AIを接続し、双方向通信と3Dモデリング制御を実現します。
MCP STL 3Dレリーフ生成器は、2D画像を3Dレリーフモデルに変換するツールで、モデルのサイズ制御、ベースの追加、深度反転などの機能に対応し、3D印刷やレンダリングに適しています。
MCP 3Dプリンターサーバーは、Claudeと複数の3Dプリンター管理システムを接続するミドルウェアで、OctoPrint、Klipper、Duetなどの主流のプラットフォームをサポートし、プリンター制御、ファイル管理、および高度なSTLモデル処理機能を提供します。
ゲームアセット生成ツールはAIモデルとMCPプロトコルを利用し、テキストプロンプトによって迅速に2Dおよび3Dゲームリソースを生成します。
3D - MCPは、3Dソフトウェア用に設計された汎用モデルコンテキストプロトコルの実装で、統一されたTypeScriptインターフェイスを通じて、LLMがBlender、Maya、Unrealなどの複数のプラットフォーム間でやり取りできるようになります。
OpenSCAD MCPサーバーは、テキストまたは画像からパラメトリック3Dモデルを生成するツールで、多視点再構築とリモート処理をサポートします。
GH_mcp_serverはLLMを通じて直接RhinoとGrasshopperと対話できるツールで、3DMファイルの分析、3Dモデリング、GrasshopperのGHPythonコードの自動生成をサポートします。
OpenSCADに基づくMCPサーバーで、AIを通じて多視点画像を生成し、パラメトリック3Dモデルに再構成し、リモートCUDAアクセラレーション処理をサポートしています。
TRELLIS Blenderプラグインは、高度なテキスト/画像から3Dモデルを生成する機能をBlenderに統合します。テキストまたは画像を通じてテクスチャ付きの3Dメッシュを生成し、詳細調整機能も提供します。プラグインはMCPサービスも統合しており、Cursor/Windsurfなどのツールと通信できます。
SketchupMCPは、モデルコンテキストプロトコル(MCP)を通じてSketchupをClaude AIに接続するプロジェクトで、AIによるSketchupの直接制御と対話型3Dモデリングを実現します。
GH_mcp_serverは、LLMsを通じて直接RhinoとGrasshopperと対話できるツールで、3dmファイルの分析、3Dモデリング、GHPythonコードの自動生成をサポートします。
MCP 3D印刷サーバーは、Claudeと複数の3Dプリンター管理システムを接続するプロトコルサーバーで、OctoPrint、Klipperなどの複数のプリンターAPIをサポートし、ファイル管理、印刷制御、高度なSTLモデル処理機能を提供します。
BlenderとローカルAIモデルを統合したオープンソースプロジェクト。自然言語で3Dモデリングを制御します。
OpenSCAD MCPサーバーは、テキストまたは画像からパラメトリック3Dモデルを生成するサービスで、多視点再構成、AI画像生成、リモートCUDA処理、ワークフロー承認をサポートし、最終的にOpenSCAD互換のモデルファイルを出力します。
MCP-Slicerは、3D SlicerをMCPプロトコルを介してモデルクライアント(Claudeなど)に接続する統合ツールで、自然言語で直接3D Slicerを操作して医学画像処理とシーン制御を行うことができます。