最好的GSM8K AI工具模型_精選GSM8K資訊

AI資訊

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

印度AI新星Alpie大模型表現亮眼，在GSM8K數學榜單和SW軟件工程榜單上超越GPT-4o等主流模型，以320億參數實現高效性能，被譽爲印度版“DeepSeek”。

蘋果研究團隊發佈新基準GSM-Symbolic：揭示大語言模型的數學推理短板！

最近，蘋果公司的研究人員對大語言模型（LLM）的數學推理能力進行了深入研究，推出了一項名爲 GSM-Symbolic 的新基準測試。這個新基準測試是在 GSM8K 的基礎上發展的，後者主要用於評估基礎數學能力。雖然許多 LLM 在 GSM8K 上的表現有所提升，但科學界對這些模型的推理能力仍然存有疑問，認爲現有的評估指標可能無法全面反映它們的真實能力。研究發現，LLM 通常依賴於概率模式匹配，而非真正的邏輯推理，導致它們對輸入的小變化非常敏感。在這項新研究中，研究人員使用符號模板生成

18.2k 5 小時前

蘋果研究揭示:大語言模型推理能力嚴重缺陷

最近，蘋果公司進行了一項關於大語言模型（LLM）推理能力的研究，引發了人們對這些模型在數學領域表現的關注。衆所周知，GSM8K 基準測試被廣泛用於評估模型在小學數學問題上的推理能力。儘管 LLM 在 GSM8K 上的表現近年來有所提高，但研究人員對此結果的可靠性產生了質疑。因此，他們進行了大規模的研究，探討當前最先進的開源和閉源模型的表現。爲了更好地評估模型的推理能力，研究團隊引入了一種改進的基準測試 ——GSM-Symbolic。這個新基準測試使用符號模板生成多樣化的問題，

14.1k 4 天前

新研究揭示小型 AI 語言模型在推理能力上的重大缺陷

最近，米拉研究所、谷歌 DeepMind 和微軟研究院的研究人員對 AI 語言模型的推理能力進行了深入調查，發現小型和便宜的模型在解決複雜問題時存在顯著不足。這項研究的是一個名爲 “組合 GSM” 的測試，目的是評估這些模型在解決鏈式的基礎數學問題方面的表現。圖源備註:圖片由AI生成，圖片授權服務商Midjourney研究人員結合了 GSM8K 數據集中的兩個問題，使用第一個問題的答案作爲第二個問題的變量進行測試。結果顯示，大多數模型在這些複雜的推理任務中表現遠低於預期，尤其是在小型

11.6k 3 天前

模型

Qwen2-72B-Instruct

Alibaba

輸入tokens/百萬

輸出tokens/百萬

131

上下文長度

Grok-1.5

Xai

輸入tokens/百萬

輸出tokens/百萬

上下文長度

Yi-9B-200K

01-ai

輸入tokens/百萬

輸出tokens/百萬

200

上下文長度

GLM-4

Chatglm

$100

輸入tokens/百萬

$100

輸出tokens/百萬

128

上下文長度

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

友情链接:

AI Newsletters AI Tools MCP Servers AI News AI Marketing LLM Leaderboard AI Ranking

商務合作網站地圖

AI資訊

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

蘋果研究團隊發佈新基準GSM-Symbolic：揭示大語言模型的數學推理短板！

蘋果研究揭示:大語言模型推理能力嚴重缺陷

新研究揭示小型 AI 語言模型在推理能力上的重大缺陷

模型

Qwen2-72B-Instruct

Grok-1.5

Yi-9B-200K

GLM-4

Wraith 8b

DParallel_Dream_7B_Instruct

DParallel LLaDA 8B Instruct

Palmyra Mini Thinking AIO GGUF

Gemma 2 2b It Grpo Gsm8k

Llama 1B GRPO_Final

Llama 2 7b Gsm8k

Math Shepherd Mistral 7b Rl

WizardMath 7B V1.1

Arithmo Mistral 7B

MetaMath 7B V1.0

AI資訊

​印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

蘋果研究團隊發佈新基準GSM-Symbolic：揭示大語言模型的數學推理短板！

蘋果研究揭示:大語言模型推理能力嚴重缺陷

​新研究揭示小型 AI 語言模型在推理能力上的重大缺陷

模型

Qwen2-72B-Instruct

Grok-1.5

Yi-9B-200K

GLM-4

Wraith 8b

DParallel_Dream_7B_Instruct

DParallel LLaDA 8B Instruct

Palmyra Mini Thinking AIO GGUF

Gemma 2 2b It Grpo Gsm8k

Llama 1B GRPO_Final

Llama 2 7b Gsm8k

Math Shepherd Mistral 7b Rl

WizardMath 7B V1.1

Arithmo Mistral 7B

MetaMath 7B V1.0

印度版“DeepSeek”問世?Alpie 大模型憑藉“套殼”技術逆襲榜單

新研究揭示小型 AI 語言模型在推理能力上的重大缺陷