ucla - 搜索 News

11 小时

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。

7 小时

原创巴特勒带来的不只是胜利，而是这支王朝球队遗失已久的嗜血 ...

现代防守的无限换防体系，在遭遇巴特勒这类“中距离刺客”时暴露出致命软肋。他的背身单打平均耗时7.2秒（联盟第3），却创造出1.24的衍生得分效率（包括助攻与二次进攻）。这种慢节奏的阵地战解法，恰好弥补了勇士传切体系在季后赛强度的滞涩感。正如巴特勒用5 ...

腾讯网9 小时

征稿｜CVPR2025首届ViSCALE研讨会，探寻计算机视觉的推理扩展律

计算机视觉与模式识别会议（CVPR）作为全球计算机视觉与人工智能领域最具影响力的顶级学术会议，将于 2025 年 6 月 11 日至 15 ...

腾讯网3 小时

麸质真的对你有害吗？戒掉麸质会怎样？

麸质，一种存在于小麦、大麦、黑麦中的蛋白质，它让面包有了柔软劲道的口感和结构。尽管对大部分人无害，但它已成为一种饮食潮流的攻击对象，无麸质饮食正由此兴起。摄影：AILEEN SON, THE NEW YORK ...

4 小时on MSN

AI日报：DeepSeek开源大模型加速器FlashMLA；海螺AI推I2V-01-Director模型 ...

欢迎来到【AI日报】栏目!这里是你每天探索人工智能世界的指南，每天我们为你呈现AI领域的热点内容，聚焦开发者，助你洞悉技术趋势、了解创新AI产品应用。新鲜AI产品点击了解:https://top.aibase.com/1、DeepSeek开源周首日: ...

11 小时

Grok 3冲击诺奖级突破，成证明「黎曼猜想」关键！AI与数学家打出 ...

这一次，基于20万块GPU训出的Grok 3，在数学基准测试中AIME 2024上刷新SOTA，创下了52高分。mini版本性能几乎与Claude 3.5 持平。他表示，相较于其他模型（如o1-pro、Claude、Gemini 2.0 Flash ...

一些您可能无法访问的结果已被隐去。

显示无法访问的结果