MIXTURE - 搜索 News

12 小时

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。

5 小时

杨植麟跟梁文锋，论文撞车

正如此次梁文峰与杨植麟的论文撞车事件，这不仅仅是技术领域的巧合，更是大模型技术发展的一个重要标志。这两家的连续“撞车”揭示了AI大模型技术发展的新方向，为AI领域的技术创新注入了新的活力。

7 小时

这7个核心问题，关乎DeepSeek引爆的未来投资机会

2月10日至11日，巴黎举办了人工智能（AI）行动峰会。《纽约时报》称，与过去一个月的所有AI活动一样， ...

腾讯网3 小时

梁文锋、杨植麟同一天发论文“秀肌肉”，主题居然撞上了！

作者 | 冬梅2 月 18 日，DeepSeek 和月之暗面（Moonshot AI）几乎在同一时间发布了各自最新的研究成果，巧合的是，两篇论文的主题高度一致——都聚焦于改进 Transformer ...

头部财经11 小时

新观察/中国民营企业：以自主创新为支点，撬动了全球产业格局的重构

中国民营企业正以"压强式研发"突破技术封锁。华为在5G专利数量上以14%的全球占比稳居榜首，其5G基站核心芯片实现100%国产化；比亚迪刀片电池能量密度突破180Wh/kg，推动电动车续航突破700公里大关。这种技术突破呈现两大特征： ...

5 小时on MSN

AI日报：DeepSeek开源大模型加速器FlashMLA；海螺AI推I2V-01-Director模型 ...

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、DeepSeek开源周首日: ...

7 小时

开源赛道太挤了！月之暗面开源新版Muon优化器

上次是论文，两家几乎前后脚放出改进版的注意力机制，可参考《撞车 DeepSeek NSA，Kimi 杨植麟署名的新注意力架构 MoBA 发布，代码也公开》、《刚刚！DeepSeek 梁文锋亲自挂名，公开新注意力架构 NSA》。

环球网科技 on MSN4 小时

尚德机构深度整合DeepSeek大模型，开启成人教育新篇章

通过接入DeepSeek，尚德机构将全方位实现AI技术对业务的赋能和升级，进一步提升教学质量和运营效率。

腾讯网5 小时

尚德机构宣布深度整合DeepSeek，开启新一轮技术转型

多知2月24日消息，尚德机构今日宣布全面接入深度求索(DeepSeek)大模型，开启其在成人教育领域的新一轮技术转型。自2025年1月发布以来，DeepSeek-R1大模型凭借其卓越的自主学习和深度逻辑推导能力，迅速在全球范围内掀起了AI技术的新一轮浪潮。其开放性技术架构、MOE(Mixture of Experts)专家模型和COT(Chain of ...

什么值得买 on MSN1 天

DeepSeek与某GPT参数比较：深度剖析与全面解读

在人工智能领域，大型语言模型的出现无疑为自然语言处理带来了革命性的突破。DeepSeek与某GPT作为这一领域的佼佼者，各自以其独特的参数配置和卓越 ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果