Stepfun
$1
入力トークン/百万
$2
出力トークン/百万
32
コンテキスト長
OFA-Sys
InsTaggerは、指令タグを自動的に提供するツールで、InsTagからタグ結果を抽出することで機能を実現し、主に人間の嗜好と一致する大規模言語モデルの教師付き微調整データの分析に使用されます。
軽量なテキストから画像を生成するモデルで、オリジナルの安定拡散モデルと比べて体積が約半分でありながら、同様の生成品質を維持しています。
Chinese CLIPはVision Transformerアーキテクチャに基づくマルチモーダルモデルで、中国語の視覚-言語タスクをサポートします。
中国語CLIPは約2億組の中国語画像テキストペアデータセットに基づくCLIPの簡易実装で、ViT-L/14@336pxを画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして採用しています。
中国語CLIPモデル、VITアーキテクチャベース、中国語視覚言語タスクをサポート
中国語CLIPの基本バージョンで、ViT-B/16を画像エンコーダー、RoBERTa-wwm-baseをテキストエンコーダーとして使用し、約2億組の中国語画像テキストペアの大規模データセットでトレーニングされています。
Intel
これは、事前学習済みの80% 1x4ブロックスパースPrune OFA BERT-Largeモデルを知識蒸留でファインチューニングしたモデルで、SQuADv1.1質問応答タスクで優れた性能を発揮します。