历史学家测试Gemini3Pro识别50份复杂手写英文学术样本,其字符错误率0.56%、词错误率1.22%,接近人类专业转录水平。AI突破传统预测模型局限,能推理处理非常规拼写、模糊标点等含混内容,实现从“看不懂”到“能理解”的认知跨越。
谷歌11月Pixel Drop更新聚焦AI功能深化,集成Gemini Nano至日常应用,新增"信息"应用的Remix功能,旨在提升用户体验、设备安全和电池续航。
OpenAI在OpenRouter平台匿名上线代号"Polaris Alpha"的大模型,疑似传闻中的GPT-5.1。该模型具备256K上下文窗口,知识截止至2024年10月,性能表现引发开发者密集测试。在Gemini3、Claude4.5等竞品压力下,此举被视为OpenAI年底市场竞争的重要布局。
谷歌宣布在Google TV上推出Gemini语音助手取代Google Assistant,这是其将Gemini整合到所有平台战略的关键一步。升级后,用户可通过更先进的AI能力以自然对话方式访问内容和功能,例如处理复杂跨情境查询,如推荐适合不同喜好的电影。
Nano Banana 2连接Gemini 2.5 Flash,支持文本到图像及图像编辑并带水印输出。
由Gempix2和Gemini 3 Pro驱动的专业4K AI图像生成器,注册送2积分。
Google Gempix2是由Gemini 3驱动的图像编辑器,功能升级,输出高质量图像。
Google基于Gemini 3 Pro的AI图像编辑器,推理强,生成编辑能力出色
google
$9
输入tokens/百万
$72
输出tokens/百万
1M
上下文长度
$2.16
$18
$0.72
$2.88
-
2M
perplexity
127k
200k
$0.58
prithivMLmods
Gemma 3 270M是谷歌推出的轻量级多模态模型,基于与Gemini系列相同的研究技术,支持文本和图像输入,具有32K上下文窗口,在问答、总结、图像理解和代码生成等任务上提供高质量输出。
unsloth
Gemma 3是Google推出的轻量级、最先进的开源模型家族,基于与Gemini模型相同的研究和技术构建。该模型具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开放模型家族,基于与Gemini模型相同的研究和技术构建。具有多模态处理能力,支持文本和图像输入,并生成文本输出,适用于各种文本生成和图像理解任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。该270M版本是经过指令调优的模型,采用量化感知训练(QAT),能够在显著降低内存需求的同时保持与bfloat16相近的质量。
Gemma 3是谷歌推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建。270M版本是其中最小规模模型,支持文本和图像输入,具备128K上下文窗口,适用于资源受限环境部署。
Gemma 3是谷歌推出的轻量级开源多模态模型家族,基于与Gemini相同的研究技术构建。270M版本是其中最小的指令微调模型,支持140多种语言,具有32K上下文长度,适用于资源受限环境下的文本生成任务。
Gemma 3是谷歌推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。270M版本是其中最小的模型,能够处理文本和图像输入并生成文本输出,适用于多种文本生成和图像理解任务。
Gemma 3是Google推出的轻量级、最先进的多模态开放模型家族,基于与Gemini模型相同的研究和技术构建。该模型能够处理文本和图像输入并生成文本输出,具有128K的大上下文窗口,支持超过140种语言,提供从270M到27B的多种尺寸选择。
Gemma 3n是谷歌推出的轻量级、最先进的多模态开放模型,基于Gemini技术构建。专为低资源设备设计,支持文本、图像、视频和音频输入,生成文本输出。采用选择性参数激活技术,在4B参数规模下高效运行。
Gemma 3n-E2B-it 是 Google 推出的轻量级开源多模态模型,基于与 Gemini 相同技术构建,专为低资源设备优化。
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建。支持文本、音频和视觉输入,适用于多种任务。
Gemma 3n是Google推出的轻量级、最先进的开源多模态模型家族,基于与Gemini模型相同的研究和技术构建,支持文本、音频和视觉输入。
iqbalamo93
Gemma 3是谷歌推出的轻量级多模态模型,基于与Gemini相同的技术构建。它支持文本和图像输入,输出文本,适用于文本生成和图像理解等多种任务,且模型尺寸多样,能在资源有限的环境中部署。
Gemma 3是Google推出的轻量级开放模型系列,基于Gemini技术构建,支持多模态输入和文本输出。
bespokelabs
由Bespoke Labs开发的7B参数规模开源图表理解视觉语言模型,在图表问答任务上超越Gemini-1.5-Pro等闭源模型
Gemma 3是谷歌基于Gemini技术构建的轻量级开放模型系列,12B版本采用量化感知训练(QAT)技术,支持多模态输入和128K上下文窗口。
Gemma 3是Google基于Gemini技术构建的轻量级开放模型系列,支持多模态输入和文本输出,具有128K大上下文窗口和140+语言支持。
Gemma 3是谷歌推出的轻量级前沿开放模型系列,基于Gemini模型技术构建,支持多模态输入和文本输出。
Gemma 3是谷歌推出的轻量级先进开放模型系列,基于创建Gemini模型的相同研究和技术构建。该模型是多模态的,能够处理文本和图像输入并生成文本输出。
Gemma 3是Google推出的轻量级开放模型系列,基于创建Gemini模型的研究和技术构建。12B版本是经过指令调优的多模态模型,支持文本和图像输入,生成文本输出。
Zen MCP是一个多模型AI协作开发服务器,为Claude和Gemini CLI等AI编码助手提供增强的工作流工具和跨模型上下文管理。它支持多种AI模型的无缝协作,实现代码审查、调试、重构等开发任务,并能保持对话上下文在不同工作流间的延续。
该项目通过搭建Claude Code与Google Gemini AI的桥梁,实现在Claude Code环境中直接调用Gemini进行问答、代码审查和创意头脑风暴,提供便捷的AI协作工具。
一个实现Claude Desktop与Google Gemini AI模型交互的MCP服务器项目
一个结合Claude Code和Google Gemini AI的MCP服务器,通过多模型协作实现深度代码分析,Claude擅长本地上下文操作和CLI工作流,Gemini则利用其超大上下文窗口进行分布式系统调试和长轨迹分析。
AI Studio MCP Server是一个集成Google AI Studio/Gemini API的模型上下文协议服务器,提供支持文件、对话历史和系统提示的内容生成功能。
基于Gemini API的文档查询MCP服务器,提供技术文档的智能问答服务。
一个基于TypeScript的MCP服务器,集成Google Gemini Pro模型
基于Gemini 2 API的图像生成MCP服务
一个基于Gemini API和Google搜索的MCP服务器,通过与AI助手(如Cline)结合使用,提供最新信息的智能回答功能。
该项目是一个概念验证(POC),展示了如何通过自定义主机实现模型上下文协议(MCP),用于测试代理系统。核心功能包括OpenAI兼容API、Google Gemini集成、流式响应支持及工具调用能力。
基于MCP的多智能体深度研究系统,整合LinkUp搜索、CrewAI协调和Gemini大模型,通过Streamlit提供交互界面。
该项目是一个基于Google Cloud Vertex AI Gemini模型的MCP服务器,提供丰富的工具集用于代码辅助和通用问答,支持网络搜索增强回答、文档解释生成、文件系统操作等功能。
这是一个基于OpenRouter API的MCP服务器项目,提供网络搜索功能,使用特定的Gemini模型返回原始文本结果。
GemForge是将Google的Gemini AI与MCP生态系统连接的企业级工具,提供实时网络访问、高级推理、代码分析和多文件处理等功能,支持60多种文件格式,具备智能模型选择和强大的错误处理机制。
LangExtract MCP Server是一个基于FastMCP的服务器,通过Google Gemini模型从非结构化文本中提取结构化信息,为Claude Code等AI助手提供文本信息提取能力,支持智能缓存和持久连接。
基于Google Gemini 2.5 Flash API的MCP图像生成与编辑服务器,支持文本生成图像、图像编辑、迭代创作和风格迁移功能
Gemini UI设计服务器是一个基于MCP协议的企业级UI/UX设计和前端实现专家系统,通过集成Google Gemini 2.5 PRO提供专业的UI组件设计、代码审查、前端代码生成和架构咨询服务
一个基于Gemini Flash 2 AI模型的数据分析与研究MCP服务器,提供数据解析、智能分析、报告生成和邮件自动发送功能。
一个集成了LangChain、自定义MCP服务器和谷歌Gemini AI模型的聊天平台,提供增强的对话功能。
MCP Gemini API服务器是一个为Cursor和Claude设计的Google Gemini API代理服务,提供文本生成、图像分析、视频分析和网络搜索等功能。