KV 背景 - 搜索 News

好消息！杭州临平区又一个超大度假综合体项目正在紧锣密鼓地建设。该项目占地面积约61.5万平方米，按照国家5A级景区标准设计建设，将打造成为国内首个集宋韵文化、江南文化、运河文化于一体的全场景沉浸式微度假综合体，预计明年建成开业。一起来看！（本文图片均 ...

7 小时

【山西证券】研究早观点

资本市场改革再深入，推动股市健康发展。

盖世汽车 on MSN3 小时

2月车企销量TOP10：比亚迪月销破30万辆，车市格局加速裂变

2025年2月，国内车市展现出鲜明的结构性特征：新能源渗透率继续向上突破，头部自主车企凭借技术迭代与全球化布局持续扩张，而传统合资品牌则在转型迟缓中陷入增长瓶颈。

腾讯网22 小时

超级周期启动！澳鹏中国全年营收破4亿，超前布局大模型平台与垂类 ...

上海2025年3月11日 -- ...

51CTO26 天

DeepSeek核心架构-MLA：剖析低秩联合压缩优化KV缓存、提升推理效率的 ...

本文将从MLA的提出背景、技术原理、解耦RoPE策略及MHA与MLA的缓存对比方面进行详细阐述。 MLA是对多头自注意力机制（MHA）的改进，其核心是对键（Keys）和值（Values）进行低秩联合压缩，生成压缩的潜在向量，以降低推理阶段的KV缓存。（1）MHA的详细原理。

腾讯网1 天

出海，可能是未来十年普通人唯一的机会

大家好，我是胡一刀，老胡，关注海外市场，专注研究全球优质资产，如果您想跟着老胡一起打开国际视野，寻找全球机会，加入老胡的私密群。关注老胡，开启国际视野，寻找全球机会这两年，大环境不好，大家都在讨论一件事，就是出海。2023年，中国社会消费品零售总额同 ...

2 天

为什么DeepSeek如此deep? 技术突破及产业影响｜襄禾观察

DeepSeek的横空出世，在国际上引发了对中国科技公司的重新评估。海外投资人在近期很长一段时间内对中国科技公司忽视，而DeepSeek的出现，让海外投资人大为震惊，大大改变了他们对中国技术发展速度的认知。

7 天

摩尔线程RoundAttention：节省82%显存的技术革新揭秘

近年来，人工智能的发展迅速推动了大型语言模型技术的进步，尤其体现在智能手机与各类数码产品的应用场景中。在这一背景下，摩尔线程科研团队发布了一项名为RoundAttention的技术，其目的是在多轮对话场景中实现显著的性能提升。通过这项技术，推理引擎的端到端延迟得以降低，同时在显存使用上实现了高达82%的节省，标志着手机与数码产品领域的又一技术革新，引起了业界广泛关注。

来自MSN5 天

7天蝉联Top 1，背后团队仅8人？40岁制作人：人生苦短

春节收假后，葡萄君发现了一款人气不低的小众产品。没有大厂背景，没有铺天盖地的宣发，零买量，这款名叫《超逼真的攻城模拟器》（下称《攻城》）的游戏，在2月8日移动端公测后，连续霸占TapTap新品榜Top 1整整7天；公测不到两周（截 ...

2 天on MSN

AI Infra新势力崛起，驿心科技如何以软硬一体优化引领变革？

近期，AI基础设施领域迎来了一股新的开源浪潮，由Deepseek引领，该公司连续发布了包括FlashMLA、DeepEP、DeepGEMM、DualPipe在内的一系列代码库以及3FS系统，这些成果几乎全面覆盖了AI基础设施底层的计算、网络与存储优化，为同行提供了宝贵参考。

来自MSN11 天

Tencent 发布新 AI 模型，称速度快于 DeepSeek-R1

腾讯推出新AI模型"混元Turbo S"，定位为"快思考模型"，旨在与DeepSeek-R1等"慢思考模型"竞争。该模型通过提高输出速度和减少首字延迟，实现近乎"即时回复"。混元Turbo ...

腾讯网12 天

赵德发《大海风》：透过历史的深沉暮霭，描绘海立云垂的时代

在长篇小说《大海风》开笔之际，作家赵德发在纸上写下“海立云垂惊心动魄汪洋恣肆饱满圆融”这几个字，并将这张纸一直放在案头，经常看上一眼。他说这是他的追求和梦想，虽不能至，心向往之。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果