搜索优化
English
网页
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
11 天
清华团队依靠强化学习成功打造超越GPT-4o的7B模型Eurus-2-7B-PRIME
近日,清华大学自然语言处理(NLP)实验室联合上海AILab和清华大学电子系,以及OpenBMB社区,成功提出了一种新的强化学习方法——PRIME(Process Reinforcement through Implicit ...
14 天
仅花1万!清华团队用PRIME强化学习超越GPT-4o!
在近期的人工智能研究中,清华大学的团队以仅仅一万块的投入,展示了他们在强化学习领域的革命性突破。他们的7B模型Eurus-2-7B-PRIME轻松超越了GPT-4o和Llama-3.1-70B,成为最新的数学能力先锋。这一成果不仅证明了强化学习的潜能,还引发了对传统模仿学习方法的质疑。
来自MSN
2 个月
端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B: Apache 2.0许可 训练于11万亿个令牌 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...
来自MSN
11 天
清华团队靠强化学习让 7B 模型打败GPT-4o数学推理
近日,清华大学 NLP 实验室联合上海 AI Lab,清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人员不依赖任何蒸馏数据和模仿学习,仅用 8 张 A100,花费一万块钱左右,不到 10天 时间,就能高效训练出一个数学能力超过 ...
Computing
1 年
Meta releases Llama 2 LLM, free for commercial use
Llama 2, released in partnership with Microsoft Azure, comes in three sizes 7B, 13B and 70B, the B standing for billions of parameters in the training data. The models can be downloaded for free ...
一些您可能无法访问的结果已被隐去。
显示无法访问的结果
反馈