发现与 Mulit Modal 相关的最受欢迎的开源项目和工具,了解最新的开发趋势和创新。
MiniCPM-o 2.6:一款可在手机上运行的、达到GPT-4o水平的视觉、语音和多模态直播大型语言模型
基于CLIP的图像和句子可扩展嵌入、推理和排序
CLIP 的开源实现
AI 数据库。存储向量、图像、文本、视频等。与大型语言模型 (LLM)/LangChain 配合使用。存储、查询、版本控制和可视化任何 AI 数据。实时将数据流传输到 PyTorch/TensorFlow。https://activeloop.ai
CVPR 2024录用(口头报告)InternVL家族:GPT-4o的开创性开源替代方案,性能逼近GPT-4o的多模态对话模型
ModelScope:让模型即服务(Model-as-a-Service)成为现实。
一个最先进的开放式视觉语言模型
使用Pytorch框架实现/复现OpenAI的文本转图像Transformer模型DALL-E
一个中文版本的CLIP模型,能够实现中文跨模态检索和表征生成。
企业级、生产就绪的多智能体编排框架。网站:https://swarms.ai
统一的嵌入式生成和搜索引擎,也提供云端服务 - cloud.marqo.ai
基于基础模型的数据处理!
OmniGen:统一图像生成。 论文链接:[https://arxiv.org/pdf/2409.11340](https://arxiv.org/pdf/2409.11340)
能够进行中文和英文多模态对话的语言模型
【EMNLP 2022】知识图谱抽取与构建的开放工具包
一行命令生成Disco Diffusion艺术作品
NExT-GPT 的代码和模型:一种任意到任意多模态大型语言模型
【EMNLP 2024?】Video-LLaVA:基于投影前对齐学习统一视觉表示
一个高效运行本地LLM(例如LLaMA/LLaVA)的C#/.NET库。
表示、发送、存储和搜索多模态数据