栏目分类开yun体育网每 token 激活参数 459 亿-Kaiyun网页版·「中国」开云官方网站 登录入口
你的位置:Kaiyun网页版·「中国」开云官方网站 登录入口 > 新闻 >开yun体育网每 token 激活参数 459 亿-Kaiyun网页版·「中国」开云官方网站 登录入口
发布日期:2025-09-12 08:58 点击次数:144当 DeepSeek 的推理模子颤动民众 AI 圈时,一家估值 200 亿东谈主民币的中国独角兽正悄然磨刀霍霍,准备用仅 53 万好意思元的熟练资本和颠覆性架构缠绵,向这个新贵发起正面挑战。
17 日,AI 创业公司MiniMax 发布了其首款推理模子 M1,字据基准评测,M1 性能杰出国内闭源模子,接近外洋最率先模子,部分任务越过 DeepSeek、阿里、字节,以及 OpenAI、谷歌和 Anthropic 等最新最强的开闭源模子。
这场较量的中枢不仅在于性能,更在于后果——与 DeepSeek R1 比拟,在生成 64K token 时,M1 猝然的算力不到其 50%;在 100K token 时,仅为其 25%。
MiniMax 称,M1 的通盘强化学习经由仅使用 512 块英伟达 H800 GPU 熟练三周,租借资本 53.74 万好意思元(约合 380 万东谈主民币)。这一资本收敛 " 比最初预期少了一个数目级 "。MiniMax 首创东谈主 &CEO 闫俊杰发文暗示:"第一次嗅觉到大山不是不行翻越。"
MiniMax-M1:羼杂行家架构与线性谨慎力机制
MiniMax-M1 弃取了羼杂行家(MoE)架构和线性谨慎力机制(Lightning Attention),这是对传统 Transformer 架构计较瓶颈的径直挑战。
"这种缠绵表面上省略高效地将推理长度扩张到数十万 token。" MiniMax 暗示,这还能带来计较资本的大幅着落,"这个特点使咱们在熟练和推理的时辰齐有很大的算力后果上风"。
该模子总参数达 4560 亿,每 token 激活参数 459 亿,复古高达 100 万 Token 的高下文输入——这一数字是 DeepSeek R1 的 8 倍,与谷歌 Gemini 2.5 Pro 并排业内最高。
在 17 个主流评测集的测试中,M1 在软件工程身手测试 SWE-bench 上得回越过 55% 的得益,虽未达到外洋顶尖模子水准,但越过了 DeepSeek-R1 以及阿里和字节的同类居品。在长高下文理罢职务中,M1 在三项基准测试上全面杰出统共开源模子,仅以狭窄差距过期于 Gemini 2.5 Pro,位列民众第二。
资本改进:380 万东谈主民币的强化学习执行
MiniMax 宣称,M1 的通盘强化学习经由仅使用 512 块英伟达 H800 GPU 熟练三周,租借资本 53.74 万好意思元(约合 380 万东谈主民币)。这一资本收敛 " 比最初预期少了一个数目级 "。
公司还斥地了名为 CISPO 的新式强化学习算法,在数学测试基准 AIME 的执行中,该算法比字节近期提议的 DAPO 算法终局了两倍加快,仅需 50% 的熟练范例就能达到相同施展。
与 DeepSeek R1 比拟,在生成 64K token 时,M1 猝然的算力不到其 50%;在 100K token 时,仅为其 25%。
区间订价计谋!MiniMax 还有更多更新
现在,MiniMax-M1 如故对外开源,并在 MiniMax APP 和 Web 端免费升级。在 API 价钱方面,MiniMax 弃取了与字节豆包 1.6 相同的 " 区间订价 " 计谋。
在 0-32k 和 32k-128k 输入长度区间,M1 的价钱比拟 DeepSeek-R1(输入 4 元 / 百万 token,输出 16 元 / 百万 token)更具性价比。关于 128k-1M 的最长输入区间,DeepSeek 模子致使不复古此长度。
这一订价计谋使 M1 成为继豆包之后的又一 " 价厮杀手 ",斥地者评价其为 " 性价比新王 "。
"AI 六小龙 " 的生涯博弈
看成腾讯和阿里巴巴复古的 "AI 六小龙 " 成员之一,MiniMax 仍在坚捏基础商榷。MiniMax 首创东谈主兼 CEO 闫俊杰发文暗示:" 第一次嗅觉到大山不是不行翻越。"
据搜狐科技报谈,M1 仅是该公司为期 5 天发布周的首个居品,后续还将发布智能体运用,并在视频、音乐等模子层面带来更多更新。
MiniMax 以为,M1 的高效架构将在将来智能体运用中具有独有上风。" 将来智能体需要数十到数百个回合进行推理,同期整合来自不同起原的长高下文信息," 该公司暗示。现在,MiniMax 正在外洋内测智能体运用开yun体育网,主打代码、多模态等身手。