バイトダンス傘下のマルチモーダル大規模言語モデルPixelLMは、SAMに依存することなく、高効率なピクセルレベル推論を実現しました。このモデルの強みは、多様な複雑な推論セグメンテーションタスクを処理できる点にあり、複数の実際のセグメンテーション結果を示すことで、オープンワールド問題を効果的に解決できます。これは、マルチモーダル大規模言語モデルが画像編集、自動運転、ロボット工学などのきめ細かいタスクへと進出していることを示しています。