Llama 2 7B - 搜索 News

10 天

清华团队依靠强化学习成功打造超越GPT-4o的7B模型Eurus-2-7B-PRIME

近日，清华大学自然语言处理（NLP）实验室联合上海AILab和清华大学电子系，以及OpenBMB社区，成功提出了一种新的强化学习方法——PRIME（Process Reinforcement through Implicit ...

来自MSN2 个月

端侧小模型新星，SmolLM2 1.7B击败了Llama 3.2、Qwen 2.5

端侧小型语言模型新星——SmolLM2 1.7B击败了Qwen 2.5 1.5B和Llama 3.2 1B： Apache 2.0许可训练于11万亿个令牌在FineWeb-Edu、DCLM、The Stack以及新的数学和编码 ...

来自MSN10 天

清华团队靠强化学习让 7B 模型打败GPT-4o数学推理

近日，清华大学 NLP 实验室联合上海 AI Lab，清华大学电子系及 OpenBMB 社区提出一种新的结合过程奖励的强化学习方法—— PRIME（Process Reinforcement through IMplicit REwards），采用 PRIME 方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用 8 张 A100，花费一万块钱左右，不到 10天时间，就能高效训练出一个数学能力超过 ...

当前正在显示可能无法访问的结果。

隐藏无法访问的结果

今日热点