阿里巴巴旗下1688推出跨境电商AI工具“遨虾”,通过“AI+供应链”技术为全球跨境创业者提供智能数字供应链服务。该工具整合图像识别、链接解析和自然语言交互功能,用户通过对话、上传图片或输入链接,即可实现从市场调研到工厂对接的全流程自动化,覆盖选品决策和工厂寻源等环节。
Google AI旅行工具升级:Flight Deals覆盖200多国,支持60种语言比价;桌面端新增Canvas侧边栏,实时整合航班、酒店及评价,生成行程草稿;美国用户全面开放代理预订,机票酒店直订即将上线。用户只需输入自然语言需求,即可获取低价航线并一键生成完整行程。
谷歌AI电影工具Flow新增图像编辑功能,集成Gemini2.5Flash模型,支持自然语言指令实现去背景、主体分离和场景替换,可生成8秒动态镜头。面向免费及以上用户开放,单张处理0.039美元,企业版同步上线Vertex AI。用户上传图片后输入提示词,即可获得PNG透明图或合成效果图。
小米更新超级小爱至v7.8.50版,新增“随心修图”功能。用户可通过自然语言指令,利用AI模型自动修图,支持多模态交互识别屏幕和摄像头画面。操作方式包括在相册唤醒小爱或通过App上传照片并输入文字,系统自动完成色彩增强、背景虚化等处理。
使用知识探索API通过自然语言输入实现对结构化数据的交互式搜索体验。
AI建站工具,构建令人惊叹的网站
基于自然语言输入的图像修复算法
Google
$0.49
输入tokens/百万
$2.1
输出tokens/百万
1k
上下文长度
Xai
$1.4
$3.5
2k
$17.5
$0.7
$2.8
Alibaba
$15.8
$12.7
64
Bytedance
-
Tencent
$1
$4
32
Openai
$0.35
400
Anthropic
$105
$525
200
$1.95
16
$2.4
$12
8
$140
$280
Baidu
$3
$9
$8.75
$70
Huawei
128
RedHatAI
这是Qwen3-VL-235B-A22B-Instruct的量化版本,通过将权重和激活值量化为FP8数据类型,有效减少了磁盘大小和GPU内存需求约50%。支持文本、图像和视频输入,输出文本,适用于多种自然语言处理和多模态任务。
kzap201
BLIP 是一个基于 Transformer 的图像到文本生成模型,能够为输入图像生成自然语言描述。
HKUSTAudio
AudioX是一个统一的扩散变压器模型,可实现任意内容到音频及音乐的生成。它能生成高质量通用音频与音乐作品,提供灵活的自然语言控制,并能无缝处理多种模态输入。
aryan083
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
Runware
基于扩散的文本生成图像模型,支持自然语言和原生标签输入,采用v-prediction预测机制
yeniguno
这是一个基于BERT的微调模型,用于将用户输入分类为82种不同的意图,适用于对话系统和自然语言理解任务。
premanthcharan
结合视觉变换器(ViT)与自然语言处理的图像描述生成模型,能够自动为输入图像生成自然语言描述
daliavanilla
BLIP 是一个基于 Transformer 的图像描述生成模型,能够为输入图像生成自然语言描述。
mo-thecreator
基于ViT-GPT2架构的图像描述生成模型,能够为输入的图像生成自然语言描述。
motheecreator
DAMO-NLP-SG
VideoLLaMA 2是一个多模态大语言模型,专注于视频理解和音频处理,能够处理视频和图像输入并生成自然语言响应。
evlinzxxx
基于视觉变换器(ViT)和GPT-2的跨模态模型,能够为输入图像生成自然语言描述
marianna13
LLaVa-Phi-2-3B是一个开源的多模态聊天机器人模型,基于Phi-2架构微调而成,能够处理图像和文本输入并生成自然语言响应。
Ayansk11
这是一个基于Vision Transformer(ViT)和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
yesidcanoc
基于Swin Transformer和DistilGPT2的端到端图像描述生成模型,能够为输入图像生成自然语言描述。
Xenova
基于ViT和GPT2架构的图像描述生成模型,可将输入的图像转换为自然语言描述。
baseplate
这是一个基于Vision Encoder-Decoder架构的图像描述生成模型,能够为输入图像生成自然语言描述。
jaimin
基于VisionEncoderDecoder架构的图像描述生成模型,能够将输入图像转换为自然语言描述。
ibm-research
Re2G-NQ重排器是IBM开发的神经信息检索组件,专门用于对检索结果进行重排优化。该模型基于BERT-base架构,在MSMARCO数据集上训练,能够显著提升初始检索结果的质量,并支持合并来自不同检索方法(如DPR和BM25)的不可比分数结果,为自然语言生成系统提供更好的输入素材。
bipin
基于Flickr8k数据集训练的视觉语言模型,能够为输入图像生成自然语言描述
MCP逻辑求解器是一个结合大型语言模型与形式化定理证明能力的强大推理系统,支持自然语言和一阶逻辑输入,通过Prover9/Mace4进行自动验证,并提供结构化推理和解释。
SEO工具MCP服务器是一个通过标准输入输出接口提供SEO API服务的中间件,支持LLM模型与DataForSEO等SEO工具的自然语言交互,实现关键词分析、排名检查、链接分析等功能。
一个基于Rust开发的本地化AI财务管理系统,支持自然语言输入、智能分析、税务计算和债务追踪,所有数据存储在本地SQLite数据库。
一个基于自然语言处理的意图解析服务器,将用户输入转换为结构化可执行工作流,提供高扩展性和可靠性的API服务。
Hyprland MCP Server是一个非官方的轻量级服务器,通过Model Context Protocol(MCP)将Hyprland窗口管理器的功能暴露给语言模型,支持自然语言查询和控制Hyprland的窗口管理、布局、输入等。
AI小记是一款基于AI的个人智能记账工具,通过自然语言交互实现极速记账和查账,支持多种输入方式和多端使用。
MyMCP Prompt是一个通过自然语言描述生成Model Context Protocol (MCP)服务器的工具,使用Google Gemini API将用户描述转换为功能性的Python MCP服务器和对应的JSON配置。项目包含Flask后端和React前端,提供Web界面供用户输入服务器描述,并展示生成的代码和配置。
一个基于自然语言处理的意图解析服务器,将用户输入转换为结构化可执行工作流,提供可扩展的API接口和可靠的处理架构。