階躍星辰がオープンソース化した320億パラメータの研究モデル「Step-DeepResearch」は、自律的な情報探索と専門レポート生成が可能。OpenAI o3-miniに匹敵する性能を持ちながら、従来モデルの10分の1のコストで導入でき、1回の呼び出しは0.5元未満。....
StepFun AIチームは音声大規模モデル「Step-Audio-R1」をリリースしました。計算リソースの利用効率を最適化することで、長時間の推論連鎖において精度が低下する問題を解決しました。研究チームは、問題の原因がトレーニング時にテキストデータに過度に依存していたため、モデルの推論が文字を読むことではなく実際に音を聞くこととは異なるものになっていたと指摘しています。
階躍星辰がStep-Audio-EditXを発表。自然言語で音声編集が可能に。文字入力で音色・感情・リズムを精密調整。30億パラメータで高性能を実現。....
StepFun AIがオープンソース「Step-Audio-EditX」を公開。30億パラメータ音声言語モデルにより、音声編集をテキストトークンのように制御可能に。従来の波形処理を超え、arXivに論文公開(2511.03601)。....
様々なユーザー指示に対応する、統一的な画像編集モデルです。
画像とテキストの入力をサポートし、テキストを出力する、新しいマルチモーダル推論モデルです。高精度な画像認識と複雑な推論能力を備えています。
300億パラメーターに基づく画像から動画を生成するモデルで、モーションの幅と様々なカメラワークに対応しています。
Step-Audioは、多言語対応、感情表現、音声クローンなどの機能を備えたオープンソースのインテリジェント音声対話フレームワークです。
Openai
$7.7
入力トークン/百万
$30.8
出力トークン/百万
200
コンテキスト長
Google
$8.75
$70
1k
Stepfun
-
$38
$120
16
$1
$2
32
$21
$84
128
stepfun-ai
Step-Audio 2は、業界レベルの音声理解と音声対話のニーズを満たすために設計されたエンドツーエンドのマルチモーダル大規模言語モデルです。高度な音声と音声理解能力、スマート音声対話機能、ツール呼び出しおよびマルチモーダル検索強化生成能力を備え、複数の音声理解と対話のベンチマークテストでトップクラスの性能を発揮しています。
jingyiZ00
R1-VL-7BはQwen2-VL-7B-Instructに基づく推論モデルで、段階的グループ相対戦略最適化(StepGRPO)手法を用いて訓練され、画像とテキストの変換タスクに特化しています。
R1-VL-2Bは、段階的グループ相対戦略最適化(StepGRPO)によって訓練された視覚言語推論モデルで、Qwen2-VL-2B-Instructを基に最適化されています。
stephenwalker
これはGoogle Gemma 3 27B ITモデルを変換したMLXバージョンで、画像テキストからテキストへのタスクをサポートします。
Step-Video-T2Vは300億のパラメータを持ち、最大204フレームのビデオを生成できる最先端のテキストからビデオを生成する事前学習モデルです。
stepenZEN
DeepSeek-R1-Distill-Llama-8BはLlamaアーキテクチャに基づく蒸留版大規模言語モデルで、パラメータ規模は8B、主に英語テキスト生成と理解タスクに使用されます。
stephenlzc
これはDolphin - 2.9 - Llama3 - 8Bをベースに中国語で微調整された言語モデルで、複数の中国語データセットを使用してトレーニングされ、中国語と英語のテキスト生成と対話タスクをサポートします。
StephanAkkerman
efficientnet_b0をファインチューニングした軽量画像分類モデルで、金融チャートの識別に特化
金融ツイートの感情分類用にファインチューニングされたモデル。1000万件の金融ツイートで事前学習された金融ツイッターBERTを基にしています
FinTwitBERTは金融ツイートに特化して事前学習された言語モデルで、金融ツイッター界隈の独特な用語やコミュニケーションスタイルを捉えることを目的としています。
StephenSKelley
これはGoogleのViTモデルをファインチューニングした画像分類モデルで、fl_image_category_dsデータセットで訓練され、66.22%の精度を達成しています。
microsoft/resnet-18をファインチューニングした画像分類モデルで、fl_image_category_dsデータセットでトレーニング済み
gary109
wav2vec2-large-xlsr-53ベースの自動音声認識モデルで、StepManiaゲームオーディオに最適化され、GARY109/AI_LIGHT_DANCEデータセットでファインチューニング済み
StephennFernandes
facebook/wav2vec2-xls-r-300mをプライベートデータセットでファインチューニングした自動音声認識モデルで、ロバストな音声イベント処理能力を備えています。
facebook/wav2vec2-xls-r-300mをマラーティー語データセットでファインチューニングした自動音声認識モデル