AI优化AI计算：智子芯元如何用智能体“全面掌控复杂计算系统”

2026-06-30 19:53:24
南方经济网

在 AI for Computing 的实践中，一个核心命题正变得日益紧迫：当计算系统的复杂度从芯片架构、编译器、推理框架到业务负载层层叠加，靠人工逐层调优已经难以持续，那么，AI优化AI计算究竟该如何真正落地？

智子芯元给出的答案是：通过“大模型 + 运筹优化 + 算法自动发现”的技术范式，打造能够全面掌控复杂计算系统的智能体。这套技术路线的目标很明确——将横跨软硬件各层级的复杂度从人类工程师手中全面接管，让计算芯片参数表上的理论峰值转化为使用场景中真实有效的实际算力。

AI优化AI计算：智子芯元如何用智能体“全面掌控复杂计算系统”第1张

这套范式具体可以拆解为三个技术环节。

第一步：让AI透彻理解计算任务与系统本身。一个计算任务进入系统后，首先要被拆解成可分析、可优化、可评测的对象——时延、吞吐量、功耗等。在真实计算系统中，性能瓶颈可能藏在很多地方：内存访问不够高效、并行调度没有展开，或者是算子实现、编译路径、推理框架与硬件适配出了问题。如果AI不能透彻理解计算任务与系统本身，后面的性能优化就很容易变成盲试。

第二步：自动搜索与算法发现。计算加速的难点在于优化空间极其庞大——同一个计算任务往往有大量可能的实现方式。靠工程师经验逐一尝试，不仅效率低，也很难覆盖真实业务复杂多变的场景。智子芯元的做法是：在一个巨大的实现空间里自动搜索合适的计算路径，甚至发现过去没有的新实现方式。一方面，AI提供通用理解和生成能力——理解任务、生成候选方案、补齐不同场景下的实现思路；另一方面，运筹优化提供在复杂约束条件下进行数学建模和优化搜索的能力。可以把这理解为工厂排产：每道工序用哪台设备、什么时候开始、前后顺序如何安排、资源冲突如何避免——放到计算系统里，对应的就是算子、计算路径、编译策略和硬件资源之间的协同关系。

第三步：硬件验证闭环。计算加速不能只在静态分析或模拟环境里进行。一个算法是否真有效，必须回到真实芯片、真实框架和真实业务负载中验证。硬件的实时反馈，让优化过程完成了从经验工程走向自动化工程的关键一跃。

这三步技术环节，被智子芯元沉淀在了核心产品——KernelCAT自动化计算加速平台中。

KernelCAT的本质是一个面向计算加速任务的智能体系统。当模型、算子、计算图、业务负载、目标硬件和性能目标接入后，它会先分析计算依赖、资源约束、硬件特征和潜在优化空间；再结合AI生成、运筹优化、强化学习和硬件反馈，搜索候选方案；最后在真实硬件上验证结果。这套流程可以概括为“分析—编码—上板调优—交付”，将计算加速中的复杂环节串成一个自动闭环。

KernelCAT家族中的Kerminal，是这套能力的具体展现。Kerminal是一套智能体系统，把模型能力、工具调用、代码执行、硬件反馈和任务流程组织在一起。值得注意的是，Kerminal并非“大模型本体”，而是“模型+harness”的一套完整智能体系统。

在多个主流benchmark中，Kerminal展现了跨榜单的泛化能力。在评估AI加速GPU内核优化的基准KernelBench中，Kerminal取得SOTA成绩，正确率、平均加速比与几何平均加速比三项核心指标均位居榜首。在CANN-Bench中，Kerminal在总计53个任务中的50个完成profiling，35个完全通过，41个通过率超过95%，仅有1个任务报错。这种表现并非针对单一榜单的专项适配，而是通用底层能力的自然外溢。

更关键的是，Kerminal展现出的不只是工程排列组合能力。在测试任务中，如果目标硬件上的常规实现方式在大值域和特殊值场景（如NaN）下精度不达标，它可以在没有人工提示的情况下，自主放弃原有实现，改用多项式逼近重新实现目标，并通过反复测试和迭代让精度达标——这说明Kerminal有能力用数学思维自主探索新的实现路径。

这种能力经受住了不同芯片平台的考验。Kerminal生成和优化的tile算子已合并至昇腾官方CANN算子库ops-math；reshape_and_cache_kernel_flash算子从vLLM CUDA版本迁移到昇腾后，性能从14us优化到2.58us，提升5.4倍。在具身智能和机器人等端侧场景，RDK S100开发板部署DeepSeek R1 1.5B，端到端2小时闭环完成，吞吐性能较仓库基线提升1.5倍。在AI for Science场景，TorchFold长序列昇腾部署实现峰值内存降低70%、速度提升50%；DSDP分子盲对接模型完成CUDA生态向鲲鹏平台的迁移适配后，推理性能提升138倍。

智子芯元之所以能构建这样一套技术体系，与其团队底色密不可分。这支团队带有鲜明的Neo Lab气质——围绕AI for Computing，将AI、运筹优化、高性能计算、智能体和系统工程放到同一套技术体系中推进。团队具备从模型训练、模型能力提升、运筹优化到Agentic系统的全栈技术积累，并依托深圳市大数据研究院与河套学院的孵化支持，同时聘请运筹优化领域权威——中国工程院外籍院士罗智泉教授担任学术指导。

随着AI深度介入加速过程，计算系统里原本按清晰层级优化的方式正在被重新定义。未来稀缺的，是穿透不同层级、在繁杂业务中找准最优实现路径的能力。而AI for Computing所代表的，正是将计算加速从单点调优推向系统级优化的方向——让计算系统自己找到最优解。

来源：南方经济网

作者：

编辑：大飞

图片来源:

本文链接: https://www.southeconomy.com/tech/707.html