跨境风投机构Nexus Venture Partners完成7亿美元第八期基金募集,延续上期规模。未来三年将一半资金投向AI基础设施与Agent赛道,另一半继续投资印度本土消费、物流与数字基础设施。该机构坚持“小基金”策略,每2.5-3年募资一次,首支票额约100万美元,专注种子到A轮早期投资。
Runway公司最新模型Gen-4.5在第三方盲测平台Video Arena中击败谷歌Veo3与OpenAI Sora2Pro,成为首个由小团队登顶的大模型。其CEO强调“专注研究、快速迭代”的可行性,并指出“一百人对万亿,靠的不是预算,而是密度”。该模型采用自研时空混合Transformer架构,展现了小团队在AI视频生成领域的突破。
字节跳动发布AI视频编辑器Vidi2,其视频理解能力超越谷歌Gemini3Pro,成为顶尖多模态模型。该工具专为长视频设计,可处理数小时素材,通过简单提示词自动生成脚本、短视频或完整电影,大幅降低视频创作门槛。
字节跳动发布120亿参数视频理解模型Vidi2,能处理数小时原始素材,理解故事脉络,并根据提示生成TikTok短视频或电影片段。其核心突破是精细时空定位(STG)功能,可同时识别视频中的时空细节,有望颠覆视频编辑行业。
ReaderLM v2是一个用于HTML转Markdown和JSON的前沿小型语言模型。
Alibaba
$1
Input tokens/M
$10
Output tokens/M
256
Context Length
$2
$20
-
$0.8
128
Baidu
32
Bytedance
$8
Deepseek
$4
$12
$1.6
Tencent
24
Iflytek
$0.5
$3
$9
Clemylia
Lam-2是基于自定义架构Aricate V4开发的第二代小型语言模型(SLM),在问答任务中表现出色,具有卓越的语言连贯性和创造力。相比前代产品,Lam-2在语法正确性和文本生成质量上有显著提升。
TheClusterDev
这是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通过vLLM框架支持,在保持模型质量的同时显著减小了模型体积,提升了推理效率。
DFloat11
这是原始lodestones/Chroma(v39)模型的DFloat11无损压缩版本,将模型大小缩小了32%,同时保持位级相同的输出,并支持高效的GPU推理。
ubergarm
当前V3-0324模型在该尺寸类别中表现最佳的量化版本,在保持性能接近Q8_0的同时显著减小了体积
mradermacher
这是Casual-Autopsy/Llama-3-VNTL-Yollisa-8B的加权/矩阵量化版本,适用于英语和日语处理,特别针对日本媒体、御宅族媒体和视觉小说(VNs)领域。
2121-8
Parler-TTS Mini v1 是一个基于日语的小型文本转语音模型,支持高质量的语音合成。
parler-tts
Parler-TTS Mini v1.1 是一个轻量级的文本转语音模型,基于45,000小时的音频数据训练而成,能够生成高质量、自然流畅的语音,其特性可以通过简单的文本提示进行控制。
simran14
基于simran14/mr-model-h在Common Voice 17.0马拉地语数据集上微调的Whisper小型语音识别模型
fairportrobotics
FRC 578团队开发的YOLO v10小模型,用于教学演示,展示目标检测模型原理
yujiepan
这是一个用于调试的小型CLIP模型,基于ViT架构,随机初始化权重。
1aurent
DinoBloom是一个基于Vision Transformer的小型特征提取模型,专门为血液学中的细胞嵌入任务设计。
avsolatorio
NoInstruct小型嵌入模型v0是一种改进的嵌入模型,专注于提升检索任务性能,同时保持对任意指令编码的独立性。
ipsilondev
Parler-TTS Mini v0.1 是一个轻量级的文本转语音模型,基于10.5K小时的音频数据训练而成,能够生成高质量、自然流畅的语音,并通过简单的文本提示控制语音特征。
unum-cloud
UForm是一款小巧的多模态AI模型,可将视觉和英文文本映射到共享向量空间,支持内容理解与生成。该模型采用轻量级设计,文本编码器为4层BERT,视觉编码器为ViT-S/16,可生成256维嵌入向量。
UForm-Gen2-dpo 是一个小型生成式视觉语言模型,通过直接偏好优化(DPO)在 VLFeedback 和 LLaVA-Human-Preference-10K 偏好数据集上针对图像描述生成和视觉问答任务进行对齐训练。
timm
基于ViT架构的小型CLIP模型,适用于零样本图像分类任务,训练于LAION-400M数据集。
fluently
Fluently V3-inpainting 是一个基于多个检查点和LoRA合并而成的图像修复模型,特别擅长处理小部件和复杂物体的修复任务。
YanweiLi
LLaMA-VID是基于LLaMA/Vicuna微调的开源多模态聊天机器人,通过扩展上下文令牌支持长达数小时的视频处理能力。
calum
这是一个小型GPT-2模型,在TinyStories V2数据集上预训练,具有3M可训练参数,表现出良好的文本生成连贯性。
rinna
由rinna株式会社训练的日语HuBERT基础模型,基于约19,000小时的日语语音语料库ReazonSpeech v1训练。
一个用于访问视觉小说数据库(VNDB)的MCP服务器,提供视觉小说搜索和详细信息查询功能,并具有API请求缓存优化。