Token Key - 搜索 News

10 小时

今日，中国工程院院士、清华大学计算机系教授郑纬民及多位AI圈人士在与新浪科技沟通中，指出了DeepSeek其成功出圈的关键所在。目前，业界对于DeepSeek的喜爱与赞美，主要集中在三个方面。第一，在技术层面，DeepSeek背后的DeepSeek ...

7 天

2025年Next Token Prediction范式探索：多模态智能的未来

总之，这篇《Next Token Prediction Towards Multimodal Intelligence: A Comprehensive Survey》为我们展示了2025年多模态智能研究的广阔前景和发展方向。随着技术的不断进步，MMNTP模型不仅将在理论上获得提升，更将在实际应用中展现其巨大的潜力。希望未来的研究能不断突破现有的限制，为多模态智能的全面发展提供支持。

4 小时on MSN

让美国硅谷恐慌！中国工程院院士揭秘：DeepSeek究竟厉害在哪里

快科技1月17日消息，在AI领域，DeepSeek带来的影响力，一点也不亚于六代机”。那么，DeepSeek究竟厉害在哪里？据新浪科技报道，今日，中国工程院院士、清华大学计算机系教授郑纬民指出了DeepSeek其成功出圈的关键所在。

4 小时

一股“东方神秘力量”登上新闻联播！吓坏美国，硅谷连夜破解

还有不少人把DeepSeek称为“美国股市最大的威胁”，甚至把DeepSeek与近期NVIDIA的回调联系在一起。1月24日，NVIDIA股价大跌3.12%，创下公司在年初CES展产品不及预期表现后的最大跌幅。

10 小时

对话中国工程院院士郑纬民：DeepSeek，究竟厉害在哪里

目前，通过 MoE 混合专家模型提升 AI 大模型的专业认知能力正成为业界公认的有效手段，而且一个大模型的专家模型数量越多，模型就越稀疏，效率也越高，但专家模型变多可能导致最终生成的结果不太准确。

腾讯网8 小时

Qwen开源首个长文本新模型，百万Tokens处理性能超GPT-4o-mini

在上下文长度高达 100万Tokens的 “大海捞针” 式任务 ——Passkey Retrieval（密钥检索）中，Qwen2.5-1M系列模型展现出卓越性能，能够精准地从长度为1M的文档里检索出隐藏信息。

腾讯网6 天

阶跃星辰推出 Step-2“高性价比版”及“文学大师版”

IT之家 1 月 21 日消息，阶跃星辰昨日上线了 Step-2 系列语言模型的两款新品 —— 参数量小、性价比更高的 Step-2 mini，以及专门针对内容创作领域推出的模型 Step 文学大师版。IT之家从官方介绍获悉，Step-2 mini ...

腾讯网14 小时

潘禺：理解DeepSeek的中国式创新，要先回顾深度学习的历史

2025-01-27 08:03发布于上海观察者网官方账号 ...

6 天

大模型帮你写小说，阶跃星辰推出 Step-2“高性价比版”及“文学大师 ...

据官方介绍，Step-2 文学大师版是一款专为文字内容创作研发的模型，沿袭了 Step-2 的知识储备、对文字强大的细节把控能力，特色在于具有更加强大的内容创作能力。Step-2 文学大师版力求解决市面上语言模型过度对齐导致的内容“假大空”，缺乏新意和真情实感的问题。

GitHub13 天

ProjectD-AI/llama_inference

优化推理逻辑在Multi-head Attention中加入了key和value的cache，每次inference只需要输入新生成的token。大模型多卡推理支持张量并行的多卡推理。微服务部署支持简单的flask部署以及gradio在线可视化部署。 LoRA模型推理施工中，计划支持使用LoRA训练的模型。 tips ...

来自MSN1 天

使用Cline+deepseek实现VsCode自动化编程，吃着火锅就把代码写完了

不知道大家有没有听说过cursor这个工具，类似于AI+VsCode的结合体，只要绑定chatgpt、claude等大模型API，就可以实现对话式自助编程，简单闲聊几句便可开发一个软件应用。

一些您可能无法访问的结果已被隐去。

显示无法访问的结果