快手Kling AI 2.6版本发布,首次集成音频生成功能,支持中英双语对白、歌唱与音效,实现文本、视频、音频一键同步生成。技术采用扩散变换器与3D时空联合注意力架构,提升复杂指令遵守率15%,并增强跨镜头角色一致性。视频输出保持10秒1080P高清,生成成本降低30%。
IBM推出Granite4.0Nano系列小型AI模型,专为本地和边缘推理设计,含8个模型,分350M和1B两种规模。采用混合SSM与变换器架构,支持基础和指令模式,基于Apache2.0开源许可,兼容vLLM等流行运行时,提升企业控制力。
AI21Labs发布开源小型语言模型Jamba Reasoning3B,专为设备端AI计算设计。该模型基于自研混合状态空间模型-变换器架构,采用Apache2.0许可证,区别于主流大型语言模型,是Jamba系列在特拉维夫开发的最新成果。
南洋理工大学等机构联合开源"WORLDMEM"长记忆世界模型,突破传统方法限制,通过创新记忆机制存储场景信息,实现虚拟环境中长期一致性。模型采用条件扩散变换器架构,支持动态更新记忆库,确保场景连贯性,并能响应动作指令。该技术显著提升虚拟现实体验,为未来应用提供支持。
高效优化的小型语言模型,专为设备端应用设计。
多语言大型语言模型,支持23种语言
多模态理解和生成的统一模型
新一代自回归框架,统一多模态理解和生成
Xai
$1.4
Input tokens/M
$3.5
Output tokens/M
2k
Context Length
Alibaba
$4
$16
1k
$2
$20
-
Bytedance
$1.2
$3.6
4
256
Moonshot
$0.8
128
$10.5
Tencent
$1
32
Deepseek
$12
Openai
$0.4
$0.75
$8.75
$70
400
64
$0.63
$3.15
131
24
Chatglm
$8
Owen777
UltraFlux是一款基于Flux的扩散变换器,专门用于原生4K文本到图像生成。它通过数据、架构和损失的协同设计,能够在各种不同纵横比下保持一致的图像质量。
HPLT
这是HPLT项目发布的第三个版本的单语编码器-解码器语言模型,专门为德语设计。基于去噪目标训练的文本到文本变换器模型,遵循NorT5架构设置,使用德语HPLT数据训练的分词器。
Pacific-Prime
INL架构是一种基于积分神经元动力学的生产级神经架构,用迭代动力学取代传统前馈网络层,适用于大语言模型、视觉变换器、多模态模型等多种类型。
actavkid
这是一个经过微调的视觉变换器模型,专门用于对12种皮肤病变进行分类。模型基于预训练的ViT架构,在约70k张皮肤病变图像上进行了微调,能够准确识别包括黑色素瘤、基底细胞癌等多种皮肤疾病。
omar07ibrahim
骆驼模型是一个基于变换器架构的文本生成模型,支持阿塞拜疆语,采用强化学习进行训练。
timm
基于CLIP架构的视觉变换器模型,专注于图像特征提取,由苹果公司发布。
facebook
基于Transformer架构的视觉变换器模型,通过DINOv2方法训练并引入寄存器机制,解决了传统ViT模型的伪影问题
NP-NP
基于视觉变换器(ViT)架构的宝可梦图像分类模型,可将宝可梦图像分类为18种不同属性。
helical-ai
Helix-mRNA是一种结合状态空间和变换器架构的混合模型,专为mRNA序列分析设计
gpustack
StableDiffusion 3.5 中型模型的 GGUF 版本是基于文本生成图像的强大扩散模型,在图像质量、排版效果、复杂提示理解和资源效率方面有显著提升。该模型采用改进的多模态扩散变换器架构,支持多种文本编码器,适用于艺术创作、教育工具和生成模型研究等场景。
TucanoBR
Tucano-2b4是一个专门针对葡萄牙语进行原生预训练的大规模语言模型,基于变换器架构,在2000亿标记的GigaVerbo数据集上训练。
tanganke
基于CLIP视觉变换器架构,在斯坦福汽车数据集上微调的视觉分类模型
Simon-Kotchou
基于AudioSet和Librispeech预训练的音频分类模型,采用视觉变换器架构处理音频频谱图
TaylorAI
bge_micro 是一个轻量级的句子相似度计算模型,基于变换器架构,专为高效的特征提取和句子相似度任务设计。
InstaDeepAI
核苷酸变换器v2是一个基于全基因组DNA序列预训练的2.5亿参数变换器模型,整合了来自850个不同物种的基因组信息,包括人类、模式生物和非模式生物。该模型在分子表型预测方面比现有方法更加准确,采用旋转位置嵌入和门控线性单元等第二代架构改进。
Xrenya
金字塔视觉变换器(PVT)是一种基于变换器架构的视觉模型,专为图像分类任务设计。
bookbot
基于音频频谱变换器架构的音频分类模型,是对原版AST AudioSet模型的蒸馏版本,适用于音频分类任务。
使用可变形检测变换器架构,在包含1203个类别的LVIS数据集上训练的目标检测模型
google
混合视觉变换器(ViT)模型结合了卷积网络和Transformer架构,用于图像分类任务,在ImageNet上表现出色。
MIT
基于AudioSet数据集微调的音频频谱变换器,采用视觉变换器架构处理音频频谱图,在音频分类任务中表现优异。