阶跃星辰开源320亿参数深度研究模型Step-DeepResearch,能在开放环境中自主探索信息并生成专业报告。其研究能力接近OpenAI o3-mini等顶级商业模型,但部署成本仅为传统模型的十分之一,单次调用成本低于0.5元人民币。
StepFun AI团队推出音频大模型Step-Audio-R1,通过优化计算资源利用,解决了音频AI模型在长推理链中准确性下降的问题。研究团队指出,问题源于训练时过度依赖文本数据,导致模型推理类似阅读文字而非实际聆听声音。
国内AI公司阶跃星辰发布Step-Audio-EditX模型,实现用自然语言指令编辑语音。用户只需输入文字要求,即可精准调整音色、情绪、节奏等,让语音编辑如修改文档般直观高效。30亿参数确保性能强大。
StepFun AI发布开源项目Step-Audio-EditX,基于30亿参数音频语言模型,将语音编辑转化为类似文本标记的可控操作,突破传统波形处理模式。该技术有望实现"像编辑文本一样编辑语音"的直观交互,相关论文已发布于arXiv平台(编号2511.03601)。
一个统一的图像编辑模型,支持多种用户指令。
全新多模态推理模型,支持图文输入、文字输出,具备高精度图像感知与复杂推理能力。
一款基于30B参数的图生视频模型,支持运动幅度可控和多种运镜效果
Step-Audio是一个开源智能语音交互框架,支持多语言对话、情感语调和语音克隆等功能。
Openai
$7.7
输入tokens/百万
$30.8
输出tokens/百万
200
上下文长度
Google
$8.75
$70
1k
Stepfun
-
$38
$120
16
$1
$2
32
$21
$84
128
stepfun-ai
Step-Audio 2 是一款端到端的多模态大语言模型,专为满足行业级音频理解和语音对话需求而设计。具备先进的语音和音频理解能力、智能语音对话功能、工具调用和多模态检索增强生成能力,在多个音频理解和对话基准测试中取得了领先的性能。
jingyiZ00
R1-VL-7B是一个基于Qwen2-VL-7B-Instruct的推理模型,采用逐步分组相对策略优化(StepGRPO)方法进行训练,专注于图文转文本任务。
R1-VL-2B 是通过逐步组相对策略优化(StepGRPO)训练得到的视觉语言推理模型,基于Qwen2-VL-2B-Instruct进行优化。
stephenwalker
这是一个基于Google Gemma 3 27B IT模型转换的MLX版本,支持图像文本到文本的任务。
Step-Video-T2V是一个拥有300亿参数、能生成最长204帧视频的尖端文本生成视频预训练模型。
stepenZEN
DeepSeek-R1-Distill-Llama-8B 是一个基于 Llama 架构的蒸馏版大语言模型,参数规模为 8B,主要用于英文文本生成和理解任务。
stephenlzc
这是一个基于Dolphin-2.9-Llama3-8B进行中文微调的语言模型,使用多个中文数据集进行训练,支持中文和英文的文本生成和对话任务。
StephanAkkerman
一个基于efficientnet_b0微调的轻量级图像分类模型,专门用于识别金融图表
针对金融推文情感分类的微调模型,基于预训练1000万条金融推文的金融推特BERT
FinTwitBERT是一个专门针对金融推文进行预训练的语言模型,旨在捕捉金融推特圈中独特的术语和沟通风格。
StephenSKelley
这是一个基于Google的ViT模型进行微调的图像分类模型,在fl_image_category_ds数据集上训练,准确率达到66.22%。
基于microsoft/resnet-18微调的图像分类模型,在fl_image_category_ds数据集上训练
gary109
基于wav2vec2-large-xlsr-53的自动语音识别模型,专为StepMania游戏音频优化,在GARY109/AI_LIGHT_DANCE数据集上微调
StephennFernandes
基于facebook/wav2vec2-xls-r-300m在马拉地语数据集上微调的自动语音识别模型
基于 facebook/wav2vec2-xls-r-300m 在私有数据集上微调的自动语音识别模型,具备鲁棒语音事件处理能力。