Fuyu-8BはAdept AIによって訓練された、マルチモーダルなテキストと画像変換モデルです。簡素化されたアーキテクチャとトレーニングプロセスにより、理解、拡張、展開が容易です。デジタルエージェント用に設計されており、任意の画像解像度に対応し、グラフや図表に関する質問への回答、UIに基づいた質問への回答、およびスクリーンショットの細粒度な位置特定が可能です。応答速度が速く、100ミリ秒以内に大型画像を処理できます。当社のユースケースに合わせて最適化されていますが、ビジュアルクエスチョン・アンサーや自然画像キャプションなどの標準的な画像理解ベンチマークでも良好な性能を示しています。公開されているモデルはベースモデルであることにご注意ください。冗長なキャプションやマルチモーダルチャットなど、具体的なユースケースに合わせてファインチューニングすることをお勧めします。当社の経験では、このモデルは少サンプル学習や様々なユースケースのファインチューニングに適しています。