搜索优化
English
搜索
Copilot
图片
视频
地图
资讯
购物
更多
航班
旅游
酒店
笔记本
Top stories
Sports
U.S.
Local
World
Science
Technology
Entertainment
Business
More
Politics
时间不限
过去 1 小时
过去 24 小时
过去 7 天
过去 30 天
按相关度排序
按时间排序
10 天
清华团队依靠强化学习成功打造超越GPT-4o的7B模型Eurus-2-7B-PRIME
近日,清华大学自然语言处理(NLP)实验室联合上海AILab和清华大学电子系,以及OpenBMB社区,成功提出了一种新的强化学习方法——PRIME(Process Reinforcement through Implicit ...
来自MSN
2 个月
端侧小模型新星,SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5
端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B: Apache 2.0许可 训练于11万亿个令牌 在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...
来自MSN
10 天
清华团队靠强化学习让 7B 模型打败GPT-4o数学推理
近日,清华大学 NLP 实验室联合上海 AI Lab,清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME(Process Reinforcement through IMplicit REwards),采用 PRIME 方法,研究人员不依赖任何蒸馏数据和模仿学习,仅用 8 张 A100,花费一万块钱左右,不到 10天 时间,就能高效训练出一个数学能力超过 ...
当前正在显示可能无法访问的结果。
隐藏无法访问的结果
今日热点
3 Israeli hostages released
Los Angeles wildfire updates
California fires: How to help
Victory rally in Washington
Begins restoring service
Georgia halts poultry sales
Russia attacks Kyiv
Rapper charged with assault
Court declares DACA illegal
Advance to NFC title game
Liable for defaming veteran
Suspends drone deliveries
FTC sues PepsiCo
US drops corruption case
Fed exits climate group
To fill Vance’s Senate seat
Vanguard fined by SEC
OR man gets life sentence
Sign partnership treaty
2 Iranian judges shot dead
NHTSA probing GM vehicles
Sasaki signs with Dodgers
DOJ sues Walgreens
Resentencing date pushed
Denied bail in assault case
Ex-CIA analyst pleads guilty
Falcons hire Ulbrich as DC
Navalny lawyers sentenced
Judge denies bail ruling
反馈