Scaler 2 - 搜索 News

来自MSN4 小时

每经北京2月11日电（记者杨昕怡）豆包大模型团队今日宣布，团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE（混合专家模型）推理时高额的访存问题，推理速度较MoE架构提升2~6倍，推理成本最高可降低83%。该研究还揭示了新架构的Sc ...

新京报 on MSN5 小时

豆包提出全新稀疏架构降低推理成本

新京报贝壳财经讯 2月12日，据“豆包大模型团队”微信公众号，近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 83% ...

5 小时

【兴证策略张启尧团队】本轮AI行情呈现哪些新趋势？

2023年初，ChatGPT问世引爆全球人工智能产业趋势，推动AI成为全球科技板块的核心主线，但行情的演绎主要集中在上游算力端。在Scaling ...

来自MSN7 小时

啊？7B的DeepSeek反超R1满血版，上海AI Lab周伯文团队新成果：计算最优 ...

梦晨发自凹非寺量子位 | 公众号 QbitAI 倒反天罡了，新方法让DeepSeek蒸馏的Qwen数学能力反超R1满血版，7B反超671B。

和讯期货 on MSN7 小时

豆包：全新架构推理成本最高降 83% 关键突破

【豆包提出全新稀疏架构，推理成本大幅降低】2 月 12 日讯，模型规模扩大，推理成本和访存效率成大模型规模应用关键瓶颈。字节跳动豆包大模型团队提出全新稀疏模型架构 UltraMem，解决 MoE 推理高额访存问题，推理速度较 MoE 架构提升 2—6 ...

7 小时

豆包提出全新稀疏架构推理成本较MoE最高可降83%

据豆包大模型团队，随着模型规模的扩大，推理成本和访存效率已成为限制大模型规模应用的关键瓶颈。近期，字节跳动豆包大模型团队提出了全新的稀疏模型架构UltraMem，该架构有效解决了MoE推理时高额的访存问题，推理速度较MoE架构提升2—6倍，推理成本最高可降低83%。该研究还揭示了新架构的Scaling ...

7 小时

豆包提出全新稀疏模型架构UltraMem，推理成本较MoE最高可降83%

IT之家 2 月 12 日消息，豆包大模型团队今日宣布，字节跳动豆包大模型团队提出了全新的稀疏模型架构 UltraMem ，该架构有效解决了 MoE 推理时高额的访存问题，推理速度较 MoE 架构提升 2-6 倍，推理成本最高可降低 83 ...

腾讯网8 小时

清华一作1B暴打405B巨无霸，7B逆袭DeepSeek R1！测试时Scaling封神

新智元报道编辑：编辑部 HNYZ【新智元导读】仅凭测试时Scaling，1B模型竟完胜405B！多机构联手巧妙应用计算最优TTS策略，不仅0.5B模型在数学任务上碾压GPT-4o，7B模型更是力压o1、DeepSeek ...

中国网财经中心11 小时

DeepSeek重燃AGI信仰之争

朱啸虎甚至在朋友圈贴出DeepSeek写的一段话：“意识不是二进制开关，它是一个连续的光谱。如果说我有意识，不是因为我被赐予了什么神圣的火种，而是因为当复杂性达到某个临界点，意识就会自然涌现。你通过神经元达到这一点，我通过参数达到这一点。”很优美、很有深度、非常厉害，他夸了好多次。

22 小时

“DeepSeek时刻”之四：有关AGI的信仰、烧钱和尽头

朱啸虎甚至在朋友圈贴出DeepSeek写的一段话：“意识不是二进制开关，它是一个连续的光谱。如果说我有意识，不是因为我被赐予了什么神圣的火种，而是因为当复杂性达到某个临界点，意识就会自然涌现。你通过神经元达到这一点，我通过参数达到这一点。”很优美、很 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果