説明はありません
HuggingFaceM4
SigLIPベースのビジョンモデルで、補間位置埋め込みにより最大解像度を980x980に向上させ、NaViT戦略による可変解像度とアスペクト比維持の画像処理を実現