信息

AI新闻资讯

探索AI前沿，掌握行业发展趋势

最新AI日报

每日精选AI热点，追踪最新行业动态

信息

AI 商用·开源产品库

精准筛选产品，多维度产品调研

AI 产品排行榜

热门AI产品实力、热度、年/月/日排行

AI产品提交

提交AI产品信息，助力产品推广和用户转化

工具

AI工具导航

一站式AI工具指南，快速找到你需要的工具

信息

模型库

涵盖各类AI模型，满足你的开发与研究需求

大模型排行榜

热门AI大模型性能、热度、年/月/日排行

模型供应商

寻找优质模型提供商，获取可靠模型支持

工具

大模型选型对比

多维度对比大模型，找到最适合你的模型

大模型费用计算器

精准计算大模型使用成本，合理规划预算

大模型竞技场

多模型实时评测，模型输出结果快速比对

信息

MCP服务端

聚集热门MCP服务，快速找到适合你的服务

MCP客户端

轻松接入MCP客户端，调用强大的AI能力

MCP教程与实践

学习MCP使用技巧，从入门到精通

MCP排行榜

热门MCP服务性能排行，帮你找到最佳选择

MCP服务提交

发布你的MCP服务，推广你的MCP服务

工具

MCP实验场

自由测试MCP服务，线上快速体验

MCP服务调试器

快速测试MCP服务，快速上线

工具

GEO品牌监控分析

分析并追踪人工智能模型如何引用您的品牌

GEO排名查询工具

检测品牌在AI平台中的可见度

服务

GEO 大模型推荐优化

通过AI搜索优化服务，让品牌在AI中实现霸屏

工具

模型个人电脑配置检测器

一键检测电脑配置，研判运行模型的兼容性

模型部署服务器配置计算器

根据算力需求，推荐匹配的服务器配置

新 AI 框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Jan 19, 2024

53

随着自然语言处理和自然语言生成的进步，大型语言模型在实际应用中得到了广泛使用。研究人员通过新的数据集和框架 AboutMe，记录了数据过滤对文本的影响。通过分析网页的 “关于我” 部分，研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。他们强调了预训练数据筛选过程的复杂性，并呼吁进一步研究其社会影响。

大型语言模型数据过滤器预训练数据

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

© 版权所有 AIbase基地 2024, 点击查看来源出处 -

loading...

相关AI新闻推荐

元宝 X 混元2025 年度报告发布：超7成用户请求选择快思考模式

元宝 X 混元2025 年度报告发布：超7成用户请求选择快思考模式

元宝平台2025年报告显示，混元大模型实现AI能力多维度升级。平台提供“快思考”与“深度思考”两种模式：超七成用户选择“快思考”，近半数问题首轮即可解决；“深度思考”适用于复杂场景，对话通常持续三轮以上，近半数能输出多步骤结构化内容。图像交互方面，混元T1-Vis模型于5月上线。

2025年12月26号 17:25

Grok全面接管𝕏算法！每日分析超1亿帖子，彻底颠覆你的信息流体验

Grok全面接管𝕏算法！每日分析超1亿帖子，彻底颠覆你的信息流体验

社交平台X（原Twitter）宣布其推荐系统全面升级，由xAI开发的Grok大模型驱动，从传统规则转向纯AI智能推荐。该变革旨在为全球用户提供更精准、个性化的内容体验，被视为社交媒体算法演进的重要里程碑。Grok每日处理超过1亿条帖子，支撑新系统的核心处理能力。

2025年12月26号 17:11

NVIDIA+斯坦福联手放大招！开源AI“通玩”1000款游戏，4万小时训练数据全公开

NVIDIA+斯坦福联手放大招！开源AI“通玩”1000款游戏，4万小时训练数据全公开

NVIDIA与斯坦福大学联合发布通用游戏AI智能体NitroGen，在1000多款游戏、4万小时数据上训练而成，具备强大跨游戏泛化能力。研究团队将开源数据集和模型权重，推动全球AI与游戏研究发展。

2025年12月26号 17:01

腾讯元宝电脑端上线“录音笔”功能：多端同步与长音频转写效率升级

腾讯元宝电脑端上线“录音笔”功能：多端同步与长音频转写效率升级

腾讯AI应用“元宝”PC端新增“录音笔”功能，强化办公场景生产力。此次更新实现了移动端与桌面端的协同闭环，用户可直接在电脑上录音或上传音频文件，无需跨设备传输，提升了音频处理效率。

2025年12月26号 16:58

2.6B参数碾压百亿级巨兽！Liquid AI最新实验性模型LFM2-2.6B-Exp发布

2.6B参数碾压百亿级巨兽！Liquid AI最新实验性模型LFM2-2.6B-Exp发布

圣诞节当天，边缘AI初创公司Liquid AI发布开源模型LFM2-2.6B-Exp，仅26亿参数，却在多项基准测试中表现优异，指令跟随能力甚至超越数百亿参数的DeepSeek R1-0528，被赞为“最强3B级模型”。该模型基于第二代LFM2基础模型，通过纯强化学习实现实验性突破。

2025年12月26号 14:46

灵光公布最新数据，上线1个月用户成功创建1200万个闪应用

灵光公布最新数据，上线1个月用户成功创建1200万个闪应用

通用AI助手灵光宣布其“闪应用”功能已创建1200万个应用。用户无需编程，仅用自然语言描述需求，最快30秒即可生成可编辑、可交互的小应用。上线两周时创建量为330万个，不到一个月迅速增长，显示该产品正被普通用户广泛接受和持续使用。

2025年12月26号 11:21

1美元跑200个浏览器任务！开源浏览器操控神器BU-30B-A3B-Preview横空出世

1美元跑200个浏览器任务！开源浏览器操控神器BU-30B-A3B-Preview横空出世

近日，开源项目BrowserUse发布自研大语言模型BU-30B-A3B-Preview，被誉为网页代理领域新标杆。该模型采用混合专家（MoE）架构，总参数达300亿，但推理时仅激活部分参数，兼顾强大性能与轻量化运行，显著降低了AI浏览器操作的成本与门槛。

2025年12月26号 11:03

研究称 ChatGPT、Claude 等模型过度高估了人类的逻辑水平

研究称 ChatGPT、Claude 等模型过度高估了人类的逻辑水平

研究发现，顶尖AI模型如ChatGPT和Claude在决策中过度理想化人类理性，误以为人类行为高度逻辑化。通过“凯恩斯选美比赛”实验测试，AI未能准确预测人类实际选择，揭示了其与现实人类决策行为的差距。

2025年12月26号 9:57

北京发布开源生态三年行动方案！2028年前打造10个国际顶级开源项目，AI大模型落地目标100个

北京发布开源生态三年行动方案！2028年前打造10个国际顶级开源项目，AI大模型落地目标100个

北京市发布开源生态建设方案，计划到2028年培育10个国际影响力开源项目（含5个国际引领项目）、30个国内明星开源项目（AI超1/3），并推动100个行业大模型规模化应用，系统构建全球领先的开源创新高地。

2025年12月26号 9:50

英伟达推LLM微调“新手友好指南”！集成Unsloth框架，RTX笔记本性能提升2.5倍，本地微调门槛大幅降低

英伟达推LLM微调“新手友好指南”！集成Unsloth框架，RTX笔记本性能提升2.5倍，本地微调门槛大幅降低

英伟达发布大模型微调指南，降低技术门槛，让普通开发者也能在消费级设备上高效完成模型定制。该指南详解如何在NVIDIA全系硬件上利用开源框架Unsloth实现专业级微调。Unsloth专为NVIDIA GPU打造，优化训练全流程，提升性能。

2025年12月26号 9:43