开yun体育网而DeepEP的出现则让它们开脱了这种依赖-Kaiyun网页版·「中国」开云官方网站 登录入口

栏目分类开yun体育网而DeepEP的出现则让它们开脱了这种依赖-Kaiyun网页版·「中国」开云官方网站 登录入口

你的位置:Kaiyun网页版·「中国」开云官方网站 登录入口 > 新闻 >

开yun体育网而DeepEP的出现则让它们开脱了这种依赖-Kaiyun网页版·「中国」开云官方网站 登录入口

发布日期:2025-09-05 12:39    点击次数:111

开yun体育网而DeepEP的出现则让它们开脱了这种依赖-Kaiyun网页版·「中国」开云官方网站 登录入口

K图 00700_0

  界面新闻记者 | 陆柯言

  简直在马化腾与梁文锋同框引起怜惜的同期,DeepSeek与腾讯暗暗进行了一次时代讨好。用腾讯工程师的话来说,这次讨好的罢了,异常于终明晰AI落地“临了一公里”的打破。

  近日,DeepSeek工程师在Github首页显现了这次讨好细节。这名工程师示意,腾讯团队的代码孝敬,让DeepEP终明晰“”huge speedup般的性能提高。这一次提高,也径直影响到每一位使用DeepSeek的用户。

  为此,界面新闻独家采访了腾讯混元大模子背后的星脉收集团队,规复了这次讨好背后的故事。

  这次时代交流最早要回首到本年2月。那时,DeepSeek晓示开源五个中枢代码库,以全透明的花样公开其怎样用1/5的硬件资源终了传统万卡集群遵循的中枢时代,使得更多设立者约略以低老本复现高性能AI测验决议,成为中国大模子开源生态的一个里程碑。

  其中一个被开源的代码库名为DeepEP。这是一个故意为MoE模子测验和推理打造的通讯库,旨在处罚阻拦MoE架构可彭胀性的关节瓶颈,要点是优化通讯、减少蔓延和提高GPU资源诳骗率。

  MoE架构以其对模子测验及推理老本的极大优化才调而著称,恰是为GPT-4、DeepSeek等超大参数模子而生。24岁首,腾讯自研的混元大模子,也在国内最初采选了MoE架构。往日MoE架构的大模子测验齐需要依赖老本欣慰的英伟达NCCL通讯库,而DeepEP的出现则让它们开脱了这种依赖。

  但DeepEP并不是全能的,它有“焕发病”:在老本较高的InfiniBand(IB)专用收鸠合形影相随,却难以适配更普适的RoCE(基于以太网)。而中国互联网厂商采选的大多齐是RoCE收集,因此多数企业在部署DeepEP时齐发现了收集性能欠安的问题。

  收集性能欠安带来的影响是显耀的。腾讯星脉收集团队首席架构师夏寅贲博士诠释谈,大模子的测验和推理需要大齐GPU,背后是极高的老本。收集发达欠安会导致测验或推理历程中通讯期间过长,异常于GPU在恭候通讯,滥用了腾贵的GPU资源,同期也变成了用户在屏幕前的永久间恭候。

  每家互联网厂商齐在部署DeepEP,为什么启航点处罚问题的是腾讯?夏寅贲博士以为,一个紧迫的前提是,获利于QQ、微信、游戏、腾讯云等高并发业务的需求,腾讯在往日十几年间终明晰收集通讯软硬件的全面自研,也蓄积了丰富的实战申饬。

  2022年,腾讯发现针对AI场景的收集需求与传统的数据中心业务存在极大各别,因此开动假想针对AI大模子的专用收集,即星脉收集,旨在为腾讯混元大模子搭建高性能收集底座。

  腾讯开动入辖下手处罚DeepEP在RoCE收集性能欠安的问题。基于新一代自研TRMT(Tencent Remote Memory Transport)通讯库,腾讯星脉收集团队集会在RoCEv2收集公约栈与双端口网卡架构的谋划申饬,对DeepEP进行了优化和增强:

  一方面,诳骗流量预谋略时代来最大化双端口网卡的带宽诳骗率,另一方面,使GPU绕过CPU的为止,由GPU直控RDMA(良友径直内存看望)通讯来摈斥为止面支拨,将通讯时延杜撰至硬件极限。最终,终明晰DeepEP在RoCEv2收集性能提高100%、IB收集性能提高30%。

  “在测验场景中,性能提高10%意味着老本不错下落10%,而在推理任务当中,除了老本下落,用户恭候的期间也不错减少10%。也便是说,往日问DeepSeek一个问题,往日要十秒钟才能得回谜底,当今平均不错下落到九秒。固然,咱们还会链接致力裁减这个期间。”腾讯星脉收集团队通讯库架构师黄晓洁示意。

  AI收集按照传输公约的不同可分为两类:IB收集和RoCE收集。其中IB收集专为高性能蓄意和AI测验而生,以低蔓延著称。但由于英伟达简直独揽了IB收集的中枢硬件,生态顽固且老本较高。磋商到供应“卡脖子”风险,腾讯星脉收集一开动就遴荐了基于以太网的RoCE收集部署,并自研了合乎新式AI业务需求的通讯库TCCL,并进一步演进到新一代TRMT通讯库。

  腾讯星脉收集团队通讯库架构师陈明卓提到,腾讯与DeepSeek团队一直存在高超的时代调换,其中也包括对明天时代的演进。总的来说,AI收集最中枢的诉求是无穷杜撰通讯占比,也便是杜撰GPU恭候通讯的期间。

  过行止理通讯问题的一直是CPU,但效率太慢。腾讯的中枢处罚想路是,把多个GPU组合成一个超等GPU,使得它们相互之间相互看望数据的才调变得更强,渐渐替代CPU参与的场景。这亦然国产GPU算力相对较低的布景下,提高AI收集性能的一种主流处罚决议。

  目下,上述时代罢了齐如故全面开源至DeepEP社区,并应用于腾讯混元大模子等项蓄意测验推理,这一罢了也得回了来自国内其他头部互联网厂商的交流和提倡。

  腾讯是DeepSeek开源的受益者。马化腾曾在一季度的腾讯功绩会上说起DeepSeek对腾讯的影响:“咱们非常投诚市集上出现了一家果然开源、且相当目田的一款居品,而况中国工程师在老本和效率方面的上风也相当明显。腾讯经过了把稳想考,不仅是云业务接入了DeepSeek,元宝也遴荐了积极拥抱。”

  同期,腾讯亦然众人开源社区的主要孝敬者之一。事实上,不管是普世价值上的时代民主化,照旧增强产业信任度,对任何一家AI时代立异的参与者来说开yun体育网,开源齐是极为紧迫的一环,亦然团员设立者生态的策略遴荐。