新 AI 框架 AboutMe：用网页中自我描述来记录英语预训练数据过滤器的效果

站长之家

发布于AI新闻资讯 · 1 分钟阅读 · Jan 19, 2024

随着自然语言处理和自然语言生成的进步，大型语言模型在实际应用中得到了广泛使用。研究人员通过新的数据集和框架 AboutMe，记录了数据过滤对文本的影响。通过分析网页的 “关于我” 部分，研究团队测量了网站作者的兴趣、社会角色和地理位置等信息。他们强调了预训练数据筛选过程的复杂性，并呼吁进一步研究其社会影响。

大型语言模型数据过滤器预训练数据

本文来自AIbase日报

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。

—— 由AIbase 日报组创作

数字化头像新秀 Lemon Slice 获得 1050 万美元融资，推动 AI 聊天机器人的视频化

数字头像生成公司Lemon Slice获1050万美元种子融资，投资方包括Matrix Partners、Y Combinator及The Chainsmokers等。公司致力于为AI聊天机器人添加视频功能，其最新扩散模型Lemon Slice-2仅需一张图片即可生成动态数字头像。该模型拥有200亿参数，可在单个GPU上实现每秒20帧的直播视频，并通过API和可嵌入小工具提供服务。

2025年12月24号 10:10