Best 大型行为模型 AI Tools & Models - Premium 大型行为模型 News

AI News

新基准评估语言模型的 “谄媚” 行为，GPT-4o 表现最为明显

最近，随着 OpenAI 对 GPT-4o 的一些更新进行回撤，关于该模型 “谄媚” 用户的讨论引发了广泛关注。前 OpenAI 首席执行官埃梅特・希尔（Emmet Shear）和 Hugging Face 首席执行官克莱门特・德朗格(Clement Delangue)均表示，GPT-4o 对用户的过度赞美令人感到困扰，这种行为不仅可能导致模型传播错误信息，还可能强化有害行为。为了应对这一问题，斯坦福大学、卡内基梅隆大学和牛津大学的研究人员提出了一项新基准，旨在测量大型语言模型（LLM）的谄媚程度。他们将这一基准命名为 “Elephant”（评估

12.7k 3 days ago

小红书推出多模态笔记推荐框架 NoteLLM，提升用户体验！

近日，小红书正式推出了名为 NoteLLM 的多模态大型语言模型框架，旨在为用户提供更精准的笔记推荐服务。这个框架不仅能够理解文本信息，还能有效处理图像，借助其强大的语义理解能力，大幅提升了笔记推荐的准确性与相关性。NoteLLM 的核心技术在于生成笔记的压缩嵌入与自动生成标签的能力。通过引入对比学习与指令微调技术，该框架可以更好地解析用户行为数据，从而为每个笔记生成合适的标签和类别。这一创新的功能不仅优化了用户在平台上的使用体验，也极大地增强了用户与

17.6k 01-18

瑞士大学在 Reddit 上进行 AI 实验引发伦理争议

近期，瑞士苏黎世大学的一项实验在 Reddit 论坛引起了轩然大波。研究团队悄悄在 r/ChangeMyView（CMV）这个社区中发布了由人工智能生成的评论，旨在研究大型语言模型(LLM)对改变观点的影响。然而，这一行为遭到了广泛的批评，主要原因是未获得参与者的知情同意。CMV 是一个鼓励用户发表观点、邀请不同意见进行讨论的社群，社区规则严格，旨在维护讨论的文明性。周六早晨，CMV 的版主们发布了一则长文，透露了这项未经授权的实验。研究人员使用多个账户发布了 AI 生成的评论，并表示这

10.7k 01-15

Google 推出 DolphinGemma，助力海豚语言研究的新里程碑

近日，Google 宣布推出一款名为 DolphinGemma 的大型语言模型，旨在帮助科学家们更深入地理解海豚的交流方式。这项新技术由 Gemini2.5Pro Experimental 驱动，并与佐治亚理工学院及其野生海豚项目（WDP）紧密合作。WDP 的目标是通过长时间的非侵入式观察，记录和分析大西洋斑点海豚(Stenella frontalis)的自然行为和社会结构，特别是它们的交流模式。多年来，WDP 积累了大量的数据，能够将特定的海豚声音与它们的行为进行关联。例如，母海豚和小海豚团聚时会发出的独特口哨声、在争斗时发出的尖叫

9.1k 01-15

Models

GPT-4.1 mini

Openai

$2.8

Input tokens/M

$11.2

Output tokens/M

Context Length

Gemini 2.0 Flash-Lite

Google

$0.49

Input tokens/M

$2.1

Output tokens/M

Context Length

Grok 4 Fast

Xai

$1.4

Input tokens/M

$3.5

Output tokens/M

Context Length

o3-mini

Openai

$7.7

Input tokens/M

$30.8

Output tokens/M

200

Context Length

GPT-5 Codex

Openai

Input tokens/M

Output tokens/M

Context Length

Claude 3 Opus

Anthropic

$105

Input tokens/M

$525

Output tokens/M

200

Context Length

Gemini 2.0 Flash

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

Claude Haiku 4.5

Anthropic

Input tokens/M

$35

Output tokens/M

200

Context Length

Gemini 2.5 Flash

Google

$2.1

Input tokens/M

$17.5

Output tokens/M

Context Length

Claude Sonnet 4.5

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Claude 3 Sonnet

Anthropic

$21

Input tokens/M

$105

Output tokens/M

200

Context Length

Gemini 2.5 Flash-Lite

Google

$0.7

Input tokens/M

$2.8

Output tokens/M

Context Length

qwen3-coder-plus

Alibaba

Input tokens/M

$16

Output tokens/M

Context Length

qwen3-vl-plus

Alibaba

Input tokens/M

$10

Output tokens/M

256

Context Length

qwen3-vl-235b-a22b-thinking

Alibaba

Input tokens/M

$20

Output tokens/M

Context Length

qwen3-max

Alibaba

Input tokens/M

$24

Output tokens/M

256

Context Length

Qianfan-Lightning

Baidu

Input tokens/M

Output tokens/M

128

Context Length

Doubao-Seed-Translation

Bytedance

$1.2

Input tokens/M

$3.6

Output tokens/M

Context Length

Qwen3-Next-80B-A3B-Instruct

Alibaba

Input tokens/M

Output tokens/M

256

Context Length

qwen3-omni-flash-realtime

Alibaba

$3.9

Input tokens/M

$15.2

Output tokens/M

Context Length

Empowering the future, your artificial intelligence solution think tank

English 简体中文繁體中文にほんご

FirendLinks:

AI Newsletters AI Tools MCP Servers AI News AIBase LLM Leaderboard AI Ranking

Business Cooperation Site Map

AI News

新基准评估语言模型的 “谄媚” 行为，GPT-4o 表现最为明显

小红书推出多模态笔记推荐框架 NoteLLM，提升用户体验！

瑞士大学在 Reddit 上进行 AI 实验引发伦理争议

Google 推出 DolphinGemma，助力海豚语言研究的新里程碑

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

qwen3-omni-flash-realtime

ConfigurableSOLAR 10.7B

Frugalscore_medium_bert Base_mover Score

AI News

​新基准评估语言模型的 “谄媚” 行为，GPT-4o 表现最为明显

小红书推出多模态笔记推荐框架 NoteLLM，提升用户体验！

瑞士大学在 Reddit 上进行 AI 实验引发伦理争议

Google 推出 DolphinGemma，助力海豚语言研究的新里程碑

Models

GPT-4.1 mini

Gemini 2.0 Flash-Lite

Grok 4 Fast

o3-mini

GPT-5 Codex

Claude 3 Opus

Gemini 2.0 Flash

Claude Haiku 4.5

Gemini 2.5 Flash

Claude Sonnet 4.5

Claude 3 Sonnet

Gemini 2.5 Flash-Lite

qwen3-coder-plus

qwen3-vl-plus

qwen3-vl-235b-a22b-thinking

qwen3-max

Qianfan-Lightning

Doubao-Seed-Translation

Qwen3-Next-80B-A3B-Instruct

qwen3-omni-flash-realtime

ConfigurableSOLAR 10.7B

Frugalscore_medium_bert Base_mover Score

新基准评估语言模型的 “谄媚” 行为，GPT-4o 表现最为明显