Appleと香港大学が共同でLGTMレンダリングフレームワークを発表。3Dシーンの幾何構造と表面テクスチャを分離し、幾何学的複雑さを簡素化してテクスチャ層を重ねることで、4K超高精細レンダリングのボトルネックを突破し、視覚効果を向上させます。....
Appleと香港大学が共同でLGTM技術フレームワークを発表。幾何学と解像度を分離し、高解像度での3Dガウススプラッティングの計算ボトルネックを最適化。Vision Proなどのデバイス向けに、より効率的なグラフィックスレンダリングを実現。....
Googleが新画像生成モデル「Nano Banana2」を発表。Gemini3.1Flash Imageアーキテクチャを基に、理解力と応答速度を大幅向上。中国語文字化けや意味混乱、画質ノイズなどの課題を改善し、明確な中国語テキスト生成を実現。....
GoogleはAI動画ツール「Flow」のアクセスを拡大し、Workspaceのビジネス、企業、教育版ユーザーに開放。Veo3.1モデル搭載で、テキストや画像から8秒動画を生成し、長いシーンに連結可能。....
Zawaは企業が簡単に専門的なロゴ、ポスター、4Kモデルを作成できるよう支援し、ブランド資産を一括処理でき、無料で始めることができます。
Googleが駆動する統一型全モデルで、4Kビデオの生成、編集、ミキシングに対応しています。
veo 4 は、4K解像度とネイティブな音声同期、キャラクター一貫性をサポートする生成型AIビデオ制作ツールです。
GPT Image 2.0は秒単位で4K画像を生成でき、テキストから画像への変換や参照編集などをサポートしています。
Bytedance
-
入力トークン/百万
出力トークン/百万
コンテキスト長
Alibaba
$1.8
$5.4
16
Baidu
32
Huawei
4
Tencent
$3.5
$7
Chatglm
01-ai
Owen777
UltraFluxは、Fluxベースの拡散トランスフォーマーで、ネイティブ4Kのテキストから画像への生成に特化しています。データ、アーキテクチャ、損失関数の協調設計により、様々なアスペクト比で一貫した画像品質を維持することができます。
opocai
これはLoRAとDiffusers技術に基づくテキストから画像生成モデルで、特定のトリガーワード「Put it here」を使用して高品質な画像を生成します。このモデルはFLUX.1 - Kontext - dev基礎モデルに基づいて構築され、自動光線調整と4K高画質出力をサポートしています。
Mungert
GLM-4.1V-9B-Thinkingは、GLM-4-9B-0414ベースモデルをベースに開発された視覚言語推論モデルで、画像テキストからテキストへの変換に特化し、複雑な多モーダルタスクで優れた性能を発揮し、64Kの長文脈と4K解像度の画像処理をサポートし、中国語と英語のバイリンガルサポートを提供します。
THUDM
GLM-4.1V-9B-Thinkingは、GLM-4-9B-0414ベースモデルに基づくオープンソースのビジュアル言語モデルで、複雑なタスクにおける推論能力の向上に特化しており、64kの文脈長と4Kの画像解像度をサポートします。
zai-org
GLM-4.1V-9B-Baseは智譜AIが開発したオープンソースのビジョン言語基礎モデルで、90億のパラメータを持ち、マルチモーダル推論能力に特化し、中英バイリンガルをサポートし、最大4K解像度の画像と64Kの文脈長を処理できます。
LyliaEngine
LoRAベースのテキスト生成画像拡散モデルで、高品質・高解像度のアニメスタイルキャラクター画像を生成することに特化し、ゴシック、和風、サイバー要素を融合させています。
Jonjew
XL 1.0+Flux1D+SD1.5ベースモデルでトレーニングされたLoRA微調整モデルで、超ハイクオリティな4K映画級の画質と極致のディテールを持つリアリスティックな肌テクスチャスタイルの画像生成に特化しています。
zhibinlan
LLaVE-2BはAquila-VL-2Bモデルを基にした20億パラメータのマルチモーダル埋め込みモデルで、4Kトークンのコンテキストウィンドウを持ち、テキスト、画像、複数画像、動画の埋め込み表現をサポートします。
Efficient-Large-Model
Sanaは4K解像度の画像を効率的に生成するテキスト生成画像フレームワークで、高解像度・高品質かつテキストと画像の整合性が強い画像を迅速に合成でき、ノートパソコンのGPU上に展開可能です。
depth-anything
Prompt Depth Anythingは、高解像度かつ精密なメトリック深度推定手法で、プロンプティングにより深度基盤モデルの潜在能力を解放し、4K解像度までの精密なメトリック深度を生成可能です。
ibm-granite
Granite-3.1-1B-A400M-BaseはIBMが開発した言語モデルで、漸進的トレーニング戦略を通じて文脈長を4Kから128Kに拡張し、多言語と様々なテキスト処理タスクをサポートしています。
Granite-8B-Code-Base-128KはIBM Researchによって開発されたコード生成モデルで、漸進的なトレーニング戦略を通じてコンテキスト長を4Kから128Kに拡張し、116種類のプログラミング言語をサポートし、コード生成、解釈、修正などの様々なソフトウェアエンジニアリングタスクを処理することができます。
dphn
ドルフィン2.9.2 Phi 3ミディアムモデルは、マイクロソフトのPhi - 3 - Medium - Instruct - 4kをベースに微調整された大規模言語モデルで、エリック・ハートフォードらによって精心に訓練されました。このモデルは、強力な指令処理、対話交流、コード作成能力を備え、関数呼び出しと初期的なエージェント能力をサポートし、MITライセンスで公開されています。
microsoft
Phi-3-Medium-4K-Instructは140億パラメータの軽量オープンソースモデルで、高品質な推論能力に特化し、4Kのコンテキスト長をサポート、英語環境での商業・研究用途に適しています。
bongodongo
Phi-3 4k Instructは、リソース要件を低減するために4ビット量子化処理された軽量ながら強力な言語モデルです。
Phi-3 Miniは軽量で最先端のオープンソースモデルで、高品質かつ高推論密度のデータに特化し、4Kのコンテキスト長をサポートします。
PixArt-alpha
PixArt-ΣはTransformerアーキテクチャに基づく潜在拡散モデルで、テキストプロンプトから直接高解像度画像(最大4K)を生成できます。
internlm
InternLM-XComposer2-4KHDはInternLM2を基にした汎用視覚言語大モデルで、4K解像度の画像理解能力を備えています。
efederici
intfloat/multilingual-e5-smallの局所スパースグローバル版で、約4kトークンをサポートする多言語テキスト埋め込みモデル
meta-llama
Llama 2はMetaがオープンソース化した130億パラメータの対話最適化大規模言語モデルで、RLHFを用いて人間の嗜好にアライメントされ、4kのコンテキスト長をサポート
バナナ画像MCPは、MCPプロトコルに基づくAI画像生成サーバーで、ClaudeなどのアシスタントがGoogle Geminiモデルを使用して高品質の画像を生成できるようにします。4K解像度とスマートなモデル選択をサポートしています。
4K YouTubeビデオのMCP複製FLUXサービスを設定する
4K YouTubeビデオの設定チュートリアル