LLM推理中的延迟问题常被忽视,而实时应用对此要求严苛。来自Zoom的华人团队提出草稿链(CoD)技术,仅用7.6%的token,就能在保持准确率的同时,大幅降低推理成本和延迟。 当下,企业正处于部署AI的关键节点。
与此同时,原本负责谷歌搜索和广告业务的普拉巴卡尔·拉加万(Prabhakar Raghavan)将出任谷歌CTO,相关工作将由谷歌产品管理副总裁尼克·福克斯 ...