蘋果開源SHARP模型,僅用不到一秒即可將2D照片轉爲物理比例準確的3D場景,大幅提升3D內容創作效率。
拓竹科技推出“印你”3D手辦生成器,基於騰訊混元3D3.0大模型,用戶上傳圖片即可生成高質量可打印3D模型,降低定製門檻,爲愛好者和新手提供便捷創作工具。
【AI日報】摘要:FLUX.2系列開源發佈,含dev版32B參數權重與代碼,支持10圖參考和4MP編輯功能。開發者可通過此工具探索圖像生成與編輯技術。詳情點擊:https://app.aibase.com/zh
知名AI專家李飛飛的World Labs推出Marble3D世界模型公測版,支持文本、圖像、視頻或3D佈局直接生成完整可導航的3D虛擬世界。用戶可實時交互編輯,並導出高斯濺射、三角網格或視頻格式。此次公測標誌着該產品從實驗室概念轉向實用工具。
FilmAgent是一個基於LLM的多智能體協作框架,用於虛擬3D空間中的端到端電影自動化製作。
Hunyuan3D 2.0 是騰訊推出的高分辨率 3D 資產生成系統,基於大規模擴散模型。
大規模基礎世界模型,生成多樣的3D可操作環境
高效3D高斯重建模型,實現大場景快速重建
Google
$0.49
輸入tokens/百萬
$2.1
輸出tokens/百萬
1k
上下文長度
Openai
$2.8
$11.2
Xai
$1.4
$3.5
2k
$7.7
$30.8
200
-
Anthropic
$105
$525
$0.7
$7
$35
$17.5
$21
Alibaba
$6
$24
256
$4
$16
Baidu
128
Bytedance
$1.2
$3.6
4
$2
$3.9
$15.2
64
$0.8
Moonshot
GatorBarbarian
TRELLIS Text XL是一個大型3D生成模型,是TRELLIS的文本條件版本,模型大小為XL。該模型基於論文《Structured 3D Latents for Scalable and Versatile 3D Generation》提出,能夠根據文本描述生成高質量的3D內容。
shakamone
TRELLIS是一個基於圖像條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D生成。
davidleiva4999
TRELLIS的文本條件版本,採用XL大模型規模,是一款強大的3D生成模型。
unsloth
InternVL3-78B-Instruct是一個先進的多模態大語言模型,在多模態感知、推理和語言處理等方面表現出色。該模型通過原生多模態預訓練方法,將視覺和語言學習整合到統一訓練階段,在工具使用、GUI代理、工業圖像分析、3D視覺感知等多個領域展現出卓越能力。
InternVL3-14B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種任務。
InternVL3-2B-Instruct是先進的多模態大語言模型,相比前代有更出色的多模態感知和推理能力,擴展了工具使用、GUI代理、工業圖像分析、3D視覺感知等方面。採用原生多模態預訓練方法,將語言和視覺學習整合到單個預訓練階段。
InternVL3-78B是一款先進的多模態大語言模型,具備卓越的多模態感知和推理能力,在工具使用、GUI代理、工業圖像分析、3D視覺感知等領域表現出色,整體文本性能也十分優秀。
InternVL3-14B是一個先進的多模態大語言模型,在InternVL 2.5基礎上顯著提升了多模態感知和推理能力,並拓展了工具使用、GUI代理、工業圖像分析、3D視覺感知等領域的應用。
Surn
TRELLIS圖像條件版本是一個大型3D生成模型,能夠從圖像生成3D內容。
larsquaedvlieg
TRELLIS是一個基於文本條件的大型3D生成模型,採用結構化3D潛變量實現可擴展與多功能的3D內容生成。
TRELLIS是一個大型3D生成模型,通過結構化3D潛變量實現可擴展與多功能的3D內容生成。
TRELLIS文本XL模型是一個大型3D生成模型,能夠根據文本描述生成3D內容。
MonsterMMORPG
TRELLIS圖像條件版本是一個大型3D生成模型,能夠根據輸入的2D圖像生成對應的3D模型。
jetx
TRELLIS的條件圖像版本,一個大型3D生成模型,能夠從2D圖像生成3D內容。
OpenGVLab
InternVL3-38B是一個先進的多模態大語言模型(MLLM),在多模態感知和推理能力上有顯著提升,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等領域。
InternVL3-9B是InternVL3系列中的一款多模態大語言模型,具備卓越的多模態感知與推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種應用場景。
InternVL3-8B是OpenGVLab推出的先進多模態大語言模型,具備強大的多模態感知與推理能力,支持工具調用、GUI智能體、工業圖像分析、3D視覺感知等新領域。
InternVL3-2B是OpenGVLab推出的先進多模態大語言模型(MLLM),具備卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等。
InternVL3-78B是OpenGVLab推出的先進多模態大語言模型,展現卓越的綜合性能。相比前代InternVL 2.5,具備更強大的多模態感知與推理能力,並將能力拓展至工具使用、GUI代理、工業圖像分析、3D視覺感知等新領域。
InternVL3-8B-Instruct 是一個先進的多模態大語言模型(MLLM),展示了卓越的多模態感知和推理能力,支持工具使用、GUI代理、工業圖像分析、3D視覺感知等多種功能。