階躍星辰開源320億參數深度研究模型Step-DeepResearch,能在開放環境中自主探索信息並生成專業報告。其研究能力接近OpenAI o3-mini等頂級商業模型,但部署成本僅爲傳統模型的十分之一,單次調用成本低於0.5元人民幣。
StepFun AI團隊推出音頻大模型Step-Audio-R1,通過優化計算資源利用,解決了音頻AI模型在長推理鏈中準確性下降的問題。研究團隊指出,問題源於訓練時過度依賴文本數據,導致模型推理類似閱讀文字而非實際聆聽聲音。
國內AI公司階躍星辰發佈Step-Audio-EditX模型,實現用自然語言指令編輯語音。用戶只需輸入文字要求,即可精準調整音色、情緒、節奏等,讓語音編輯如修改文檔般直觀高效。30億參數確保性能強大。
StepFun AI發佈開源項目Step-Audio-EditX,基於30億參數音頻語言模型,將語音編輯轉化爲類似文本標記的可控操作,突破傳統波形處理模式。該技術有望實現"像編輯文本一樣編輯語音"的直觀交互,相關論文已發佈於arXiv平臺(編號2511.03601)。
一個統一的圖像編輯模型,支持多種用戶指令。
全新多模態推理模型,支持圖文輸入、文字輸出,具備高精度圖像感知與複雜推理能力。
一款基於30B參數的圖生視頻模型,支持運動幅度可控和多種運鏡效果
Step-Audio是一個開源智能語音交互框架,支持多語言對話、情感語調和語音克隆等功能。
Openai
$7.7
輸入tokens/百萬
$30.8
輸出tokens/百萬
200
上下文長度
Google
$8.75
$70
1k
Stepfun
-
$38
$120
16
$1
$2
32
$21
$84
128
stepfun-ai
Step-Audio 2 是一款端到端的多模態大語言模型,專為滿足行業級音頻理解和語音對話需求而設計。具備先進的語音和音頻理解能力、智能語音對話功能、工具調用和多模態檢索增強生成能力,在多個音頻理解和對話基準測試中取得了領先的性能。
jingyiZ00
R1-VL-7B是一個基於Qwen2-VL-7B-Instruct的推理模型,採用逐步分組相對策略優化(StepGRPO)方法進行訓練,專注於圖文轉文本任務。
R1-VL-2B 是通過逐步組相對策略優化(StepGRPO)訓練得到的視覺語言推理模型,基於Qwen2-VL-2B-Instruct進行優化。
stephenwalker
這是一個基於Google Gemma 3 27B IT模型轉換的MLX版本,支持圖像文本到文本的任務。
Step-Video-T2V是一個擁有300億參數、能生成最長204幀視頻的尖端文本生成視頻預訓練模型。
stepenZEN
DeepSeek-R1-Distill-Llama-8B 是一個基於 Llama 架構的蒸餾版大語言模型,參數規模為 8B,主要用於英文文本生成和理解任務。
stephenlzc
這是一個基於Dolphin-2.9-Llama3-8B進行中文微調的語言模型,使用多箇中文數據集進行訓練,支持中文和英文的文本生成和對話任務。
StephanAkkerman
一個基於efficientnet_b0微調的輕量級圖像分類模型,專門用於識別金融圖表
針對金融推文情感分類的微調模型,基於預訓練1000萬條金融推文的金融推特BERT
FinTwitBERT是一個專門針對金融推文進行預訓練的語言模型,旨在捕捉金融推特圈中獨特的術語和溝通風格。
StephenSKelley
這是一個基於Google的ViT模型進行微調的圖像分類模型,在fl_image_category_ds數據集上訓練,準確率達到66.22%。
基於microsoft/resnet-18微調的圖像分類模型,在fl_image_category_ds數據集上訓練
gary109
基於wav2vec2-large-xlsr-53的自動語音識別模型,專為StepMania遊戲音頻優化,在GARY109/AI_LIGHT_DANCE數據集上微調
StephennFernandes
基於 facebook/wav2vec2-xls-r-300m 在私有數據集上微調的自動語音識別模型,具備魯棒語音事件處理能力。
基於facebook/wav2vec2-xls-r-300m在馬拉地語數據集上微調的自動語音識別模型