跨境風投機構Nexus Venture Partners完成7億美元第八期基金募集,延續上期規模。未來三年將一半資金投向AI基礎設施與Agent賽道,另一半繼續投資印度本土消費、物流與數字基礎設施。該機構堅持“小基金”策略,每2.5-3年募資一次,首支票額約100萬美元,專注種子到A輪早期投資。
Runway公司最新模型Gen-4.5在第三方盲測平臺Video Arena中擊敗谷歌Veo3與OpenAI Sora2Pro,成爲首個由小團隊登頂的大模型。其CEO強調“專注研究、快速迭代”的可行性,並指出“一百人對萬億,靠的不是預算,而是密度”。該模型採用自研時空混合Transformer架構,展現了小團隊在AI視頻生成領域的突破。
字節跳動發佈AI視頻編輯器Vidi2,其視頻理解能力超越谷歌Gemini3Pro,成爲頂尖多模態模型。該工具專爲長視頻設計,可處理數小時素材,通過簡單提示詞自動生成腳本、短視頻或完整電影,大幅降低視頻創作門檻。
字節跳動發佈120億參數視頻理解模型Vidi2,能處理數小時原始素材,理解故事脈絡,並根據提示生成TikTok短視頻或電影片段。其核心突破是精細時空定位(STG)功能,可同時識別視頻中的時空細節,有望顛覆視頻編輯行業。
ReaderLM v2是一個用於HTML轉Markdown和JSON的前沿小型語言模型。
Anthropic
$21
輸入tokens/百萬
$105
輸出tokens/百萬
200
上下文長度
Alibaba
$1
$10
256
$2
$20
-
$0.8
128
Baidu
32
Bytedance
$8
Deepseek
$4
$12
$1.6
Tencent
24
Iflytek
pnnbao-ump
VieNeu-TTS-1000h是一款先進的越南語端側文本轉語音模型,基於約1000小時高質量越南語語音數據訓練,具備即時語音克隆功能,支持越南語與英語的無縫切換,能在CPU或GPU上即時合成24kHz波形。
Clemylia
Lam-2是基於自定義架構Aricate V4開發的第二代小型語言模型(SLM),在問答任務中表現出色,具有卓越的語言連貫性和創造力。相比前代產品,Lam-2在語法正確性和文本生成質量上有顯著提升。
FabioSarracino
VibeVoice-Large-Q8是首個真正可用的8位VibeVoice模型,通過選擇性量化技術在大幅減小模型尺寸的同時保持與原始模型相同的音頻質量,適用於顯存有限的場景。
Ken-Z
本模型是microsoft/speech-t5的微調版本,專門針對拉丁語進行了優化訓練。它使用了來自Vox Classica數據集的67小時拉丁語音頻數據進行訓練,能夠實現高質量的拉丁語文本轉語音功能。
TheClusterDev
這是Qwen3-Next-80B-A3B-Instruct模型的FP8量化版本,通過vLLM框架支持,在保持模型質量的同時顯著減小了模型體積,提升了推理效率。
Vikhrmodels
Borealis 是首款面向俄語的自動語音識別(ASR)音頻大語言模型,經過約7000小時俄語音頻數據訓練。該模型支持識別音頻中的標點符號,架構受Voxtral啟發但有所改進,在多個俄語ASR基準測試中表現優異。
bosonai
Higgs Audio V2是一個強大的音頻基礎模型,在超過1000萬小時的音頻數據和多樣化的文本數據上進行了預訓練,能夠生成表現力豐富的音頻。
DFloat11
這是原始lodestones/Chroma(v39)模型的DFloat11無損壓縮版本,將模型大小縮小了32%,同時保持位級相同的輸出,並支持高效的GPU推理。
ConfidentialMind
這是 OpenGVLab/InternVL3-38B 的 FP8 靜態量化版本,針對使用 vLLM 進行高性能推理進行了優化,在視覺語言任務上實現了約 2 倍的加速,同時精度損失極小。
alkiskoudounas
voc2vec是專為非語言人類數據設計的基礎模型,基於HuBERT框架構建,在125小時非語言音頻數據上預訓練。
ubergarm
當前V3-0324模型在該尺寸類別中表現最佳的量化版本,在保持性能接近Q8_0的同時顯著減小了體積
mradermacher
這是Casual-Autopsy/Llama-3-VNTL-Yollisa-8B的加權/矩陣量化版本,適用於英語和日語處理,特別針對日本媒體、御宅族媒體和視覺小說(VNs)領域。
ModelsLab
魚語語音 V1.5 是一款領先的文本轉語音(TTS)模型,基於超過100萬小時的多語言音頻數據訓練而成。
voc2vec是專為非語言人類數據設計的基礎模型,基於wav2vec 2.0框架構建,預訓練數據集涵蓋約125小時非語言音頻。
avemio
基於Whisper Large v3 Turbo優化的德語語音識別模型,在13小時精選數據集上微調,顯著提升德語識別準確率
cocktailpeanut
2121-8
Parler-TTS Mini v1 是一個基於日語的小型文本轉語音模型,支持高質量的語音合成。
parler-tts
Parler-TTS Mini v1.1 是一個輕量級的文本轉語音模型,基於45,000小時的音頻數據訓練而成,能夠生成高質量、自然流暢的語音,其特性可以通過簡單的文本提示進行控制。
基於Parler-TTS Large v1微調的單說話者文本轉語音模型,使用30小時高質量愛爾蘭口音Jenny數據集訓練
simran14
基於simran14/mr-model-h在Common Voice 17.0馬拉地語數據集上微調的Whisper小型語音識別模型
一個用於訪問視覺小說數據庫(VNDB)的MCP服務器,提供視覺小說搜索和詳細信息查詢功能,並具有API請求緩存優化。