您现在的位置:首页  >  新闻资讯

人工智能功耗问题:挑战、权衡与优化路径

2025/8/25 11:09:41 标签:中国传动网

 但首先,必须解决效用问题。电力是否被浪费了?“我们将电力用于有价值的用途,”Ansys(现为新思科技旗下公司)产品营销总监 Marc Swinnen 说道。“它没有被浪费。它是电力的工业应用,它只是另一个行业 —— 就像钢铁和铜一样。”

  在很多情况下,这些电力可以被显著的节约所抵消。“农民使用人工智能来控制自动驾驶拖拉机进行耕作,”Microchip 高级产品营销经理 Diptesh Nandi 说道。 “他们在喷洒农药和肥料时使用人工智能进行推理。这不仅节省了时间,还减少了化学品的使用量。生产这些化学品需要电力,因此使用人工智能可以节省电力。我们已经看到人工智能驱动的边缘设备蓬勃发展,尤其是在农业领域。”

  在今年的设计自动化大会上,一些学者声称,在降低功耗方面,一些简单的改进已经被实现了。“我不同意这种说法,” 新思科技系统设计事业部系统解决方案战略项目执行总监 Frank Schirrmeister 说道。“我们还远没有达到优化所有目标。此外,应用需求增长如此之快,以至于很难跟上功耗的步伐。问题可能是:‘如何实现最低功耗?’片上网络(NoC)的影响、芯片分区的影响、特定工作负载架构的影响,以及对更高性能的渴望,这是一个与功耗的权衡。”

  有些人将计算机的功耗与自然功耗进行比较。 “如果你观察像玄凤鹦鹉这样的生物,想想它大脑里 2 瓦的功率能做什么,它就能飞,”Cadence 计算解决方案事业部产品营销总监 Jason Lawley 说道。“它可以模仿文字,可以对周围环境进行复杂的视觉理解,进行 3D 计算,还可以在树林间飞翔。从这个角度来看,很多事情都是可能的。问题只是我们多久才能赶上它们。我认为人工智能不会永远沿着同一条道路发展。会有其他创新和发明让我们继续前进,比如神经形态计算。”

  许多头条数据都与数据中心的训练有关,但从长远来看,这可能是错误的重点。“传统上,训练占据了我们计算需求的主导地位,因为它需要大量的数据集和更长的周期,”Normal Computing 的高级人工智能工程师 Doyun Kim 说道。“如今,我们正见证推理时计算技术的根本性转变。模型执行多步推理,包括思维链、思维树和代理工作流,每次查询都会触发数十次推理操作,其功耗如今已可与训练强度相媲美。对于芯片设计人员和数据中心运营商而言,这代表着一次重大转变。推理正成为首要的功耗考虑因素。但我们如何应对这一功耗挑战?

  这可能会迫使设计团队更加节约用电。“边缘 AI 的功耗将会增加,但它将更多地由电池供电,”Cadence 的 Jason Lawley 说道。“它将更加分散地融入我们的日常生活中。相对而言,我们能够投入到这些电池中的电量与数据中心本身的功耗相比微不足道,而用户将要求更长的电池续航时间。”

  边缘AI更具价值

  如果我们假设 AI 能够提供价值,那么我们可以看看等式的另一面。 “现有的电网并非为人工智能而建,无法应对,”Ansys(现已被新思科技收购)总监 Rich Goldman 表示。“升级基础设施将耗费大量时间,成本也非常高昂。我们必须考虑本地能源生产,而不是试图将能源从生产地输送到需求地。小型核反应堆的时代即将到来。”

  还有其他非碳排放的方式来生产所需的电力。“好处是,数据中心可以建在任何有电的地方,”Ansys 的 Marc Swinnen 补充道。“想想撒哈拉沙漠。那里土地充足,阳光充足,你可以建造太阳能发电场。人工智能的魅力在于,你只需在那里铺设一条光缆,就可以将所有数据输入和输出,而无需大量的基础设施。你不需要港口和道路。”

  虽然这解决了数据中心的问题,但也必须考虑边缘计算。 Normal Computing 高级 AI 工程师 Maxim Khomiakov 表示:“在运行 LLM 时,设备上的边缘 AI 执行仍然是一个极其耗能的过程。转向模型高效地获取输出是一项巨大的挑战。暴力破解解决方案非常耗能。一种已知的技术是生成许多输出轨迹,并同时对有用的轨迹进行子集化,从而优化提示和答案。从长远来看,未来的道路是构建针对 LLM 和推理密集型工作负载优化的 ASIC 芯片。推理需求正在飙升,这正在赶上训练成本。

  边缘自主性正在不断发展。“使用边缘 AI 的客户的主要要求是降低延迟,”Microchip 的 Diptesh Nandi 说道。“将数据发送到数据中心并获取响应需要耗费太多时间和功耗。一种解决方案是在将其发送到数据中心之前在边缘执行一些计算。例如,如果您在高速公路上监控车牌,75% 的工作负载是检测车牌的位置并沿道路跟踪它。一旦您能够锁定该位置,就可以将数据发送回云端进行字符识别。”

  模型演进

  模型规模持续扩大。“这些大型语言模型的变化速度持续加快,这直接增加了训练的消耗率,”Jason Lawley 说道。“观察它们在何时达到收益递减的临界点将会很有趣,但目前看来它们还远未达到这个临界点。它们持续输入更多数据,并取得了更好的结果。它们对初始数据集采用了不同的改进技术,并且进行了二次训练和其他形式的训练,最终将这些大型语言模型融入其中。”

  目前的目标似乎是创建更大、更统一的模型。“首先可以优化的是模型本身,”Synopsys 的 Frank Schirrmeister 说道。“通过使模型更贴合其需求,可以获得很多好处。你可以使这些模型更加贴合应用程序,从而能够限制它们。在其上运行的、消耗所有能量的应用程序正在变得更加优化,不再局限于泛化。”

  这可能会让事情朝着不同的方向发展。“正如硅片行业引入多电压域、时钟门控和电源门控来节省功耗一样,我们可以将类似的概念应用于 AI 系统,”Normal 的 Doyun Kim 说道。“就像避免同时运行整个模型的混合专家 (MoE) 架构一样,我们可以使 AI 系统更加模块化。通过实时预测需要哪些模块并动态地仅激活必要的组件 —— 类似于工作负载预测 —— 我们可以通过智能系统级电源管理实现显著的节能。”

  一些优化需要协同设计。“软件堆栈有很多改进的机会,例如运算符融合、布局转换和编译器感知调度,”Expedera 软件工程总监 Prem Theivendran 说道。“这些可以释放潜在的硬件效率,但前提是硬件能够暴露这些钩子。这需要硬件功能和软件优化之间的密切协调。当模型、编译器和硬件协同优化时,即使在已经高效的加速器上,也能获得显著的收益。”

  边缘计算拥有更多机遇。“量化是最重要的关键之一,”Jason Lawley 说道。“我们看到人们正在朝着两个方向发展。一是缩小规模。虽然目前许多人都在使用 Int8,但 Int4,有时甚至是 Int1 也在考虑之中。Int1 可以减少存储空间、带宽和计算量,而这三个方面是我们功耗的主要来源。我们看到越来越多关于混合量化模式的研究,其中一些层可能以 FP16 运行,因为它们非常重要,而其他层则以 Int4 运行。我们也看到人们从整数回归浮点,甚至使用 FP16 和 FP8,因为他们发现,在使用 8 位或 16 位非线性的模型中,浮点数能获得更好的结果。使用浮点表示可以获得更精细的粒度。”

  设计更优的硬件

  主要有两种方法。第一种是设计更适合执行 AI 工作负载的架构,第二种是提高现有架构的效率。“工程设计始终是一个抽象的过程,从这个角度来看,这是一种权衡,因为你永远无法真正在整个设计层次上实现全面优化,”Fraunhofer IIS 自适应系统工程部门高级混合信号自动化团队经理 Benjamin Prautsch 说道。“你会尝试尽可能地抽象,以便在更短的时间内创造更多价值。但这是以次优设计为代价的,至少对于特定用途而言是这样。我们永远无法真正找到最优方案。当然,我们希望进行优化,这需要对整个堆栈进行优化,沿着价值链从上到下。我们可能需要兼具整体视角和能够优化关键问题的优秀工具。最大的问题是人工智能发展如此迅速,这与制造时间表并不兼容。

  在工艺的每个步骤中都可以节省功耗,但功耗也可能被浪费。“虽然降低功耗看似简单 —— 最小化 P=fCv² 中的各项 —— 但由于功耗、性能和面积 (PPA) 之间的内在权衡,这使其变得复杂,”Cadence 数字与签核事业部产品管理总监 Jeff Roane 表示。“由于难以测量和优化的故障功耗,这些复杂性在 AI 芯片数学函数中成倍增加。因此,必须在每一个设计抽象层级进行以准确分析为驱动的有效优化,其中架构级优化可实现最大程度的降幅,最高可达 50%;RT 级优化可实现最高 20% 的降幅;门控物理良率最高可达 10%。”

  在每个设计步骤中,了解工作负载都至关重要。“功耗主要由动态功耗决定,而动态功耗高度依赖于矢量,” 新思科技研究员 Godwin Maben 表示。“特定于 AI 的工作负载定义非常明确,因此生成工作负载并非问题。功耗主要取决于从计算到内存再到计算的数据传输。拥有一个节能的总线架构至关重要,甚至像压缩进出内存的数据这样的架构决策也至关重要。功耗降低是可扩展的。由于同一计算单元的实例会重复数千次,因此优化一个单元将显著降低整体功耗。”

  在所有讨论中,数据移动都是功耗关注点的首要问题。“AI 工作负载涉及在计算单元、内存和加速器之间传输大量数据,”Arteris 产品管理和营销副总裁 Andy Nightingale 表示。“为了降低每次推理的功耗,需要考虑本地化通信。与长距离传输相比,平铺或空间聚类技术更受欢迎。我们预见到,未来巧妙的互连设计将成为 SoC 架构师扭转 AI 功耗曲线的最重要杠杆。”

  处理器的其他部分对工作负载的依赖程度较低。“回顾过去,矩阵乘法一直是贯穿整个 AI 领域始终不变的要素,”Jason Lawley 说道。“这部分其实并没有改变。量化变了,激活函数变了,带宽变了,人们排列不同层的方式也变了。但矩阵乘法的功能始终不变。我们确保拥有非常强大的矩阵乘法解决方案,同时在激活函数等方面也拥有更高的可编程性。”

  更重要的架构变革研究仍在继续。“关于内存计算的讨论尚未结束,”Frank Schirrmeister 说道。“它有助于提高性能和功耗,因为你无需跨边界传输数据。你无需移动数据即可执行计算。这些都是尚未得到充分利用的领域。其他人正在认真考虑神经形态计算。我不认为我们会被冯・诺依曼束缚。只是太多的遗留问题依赖于它。你能用不同的方法吗,尤其是在人工智能加速的背景下?当然可以。市面上有很多方法。有什么方法能坚持下去吗?可能是为了满足那些特定的需求,比如降低能耗和功耗。”

  为了更接近大脑的运作方式,必须考虑模拟技术。“有一些非常有趣的模拟初创公司,已经取得了巨大的成果,”Jason Lawley 说。“不幸的是,他们无法扩展到所需的所有算子范围。对于模拟加速器擅长的事情,它们确实做得很好,而且功耗极低。但很多时候,它们不得不回归数字技术。模拟技术是一个复杂的制造过程。为了达到必要的控制水平,你需要确保所有电流、电阻和线路连接都正确。这是一个更难解决的问题。也许未来会解决这个问题,但各大公司长期以来一直在努力解决这个问题。

  EDA 的作用

  EDA 主要通过两种方式帮助降低 AI 功耗。首先是提供决策所需的信息。其次是提供工具,以实现高效的实施和优化。Expedera 的 Prem Theivendran 表示:“EDA 可以将过去的猜测转化为数据驱动的设计,从而塑造 AI 架构。通过设计空间探索、工作负载分析和 AI 辅助调优,EDA 可以帮助架构师构建不仅功能齐全,而且针对实际 AI 工作负载进行优化的硬件。”

  左移的真正程度在系统层面上变得显而易见。“我们已经到了不能只考虑芯片级优化的阶段 —— 我们需要考虑从封装到电路板再到机架级的整个堆栈,”Doyun Kim 说道。“尤其重要的是工作负载感知的系统设计。不同的 AI 工作负载 —— 无论是训练、推理,还是这些新的推理时计算模式 —— 都具有截然不同的功耗和散热特性。EDA 工具需要不断发展,以帮助我们根据实际工作负载特性分析和优化这些全系统交互。只有这样,我们才能设计出真正最大化硅片利用率的系统,而不是在大多数时间里受到散热限制。”

  硬件架构的快速迭代让我们可以考虑更多选项。“EDA 需要融入高级的、物理感知的规划工具,”Arteris 的 Andy Nightingale 说道。“自动化必须能够快速迭代拓扑和布局,模拟功耗和性能之间的权衡。基于 AI 的设计空间探索还可以帮助实现最佳分区、布线和资源布局。”

  工作负载、架构、事务与内存存储之间交互的复杂性不断增加。“它们变得过于复杂,人们根本无法预测,”Frank Schirrmeister 说道。“在某些组件中,电子表格仍然可以帮助您识别缓存对跨越芯片或芯片集边界的流量的影响,这可能会消耗更多电量。您仍然可以进行粗略的计算并使用随机模型。但这些交互过于复杂,以至于人们要求在目标架构上运行 AI 工作负载,以便您确信自己在性能方面做得正确。”

  人类创新仍有很大的空间。“这是一个复杂性的问题,它本质上过于复杂,这表明在设计过程中可能会出现大量的浪费,”Fraunhofer 的 Benjamin Prautsch 说道。“在将问题分解为解决方案时,这种情况并不少见。这始终是一个权衡,而且总是带有偏见的。利益相关者之间的良好沟通至关重要,这样才能快速排除各种选项,并迅速缩小最合理的选择范围,但这并不一定意味着最佳解决方案已经摆在桌面上。”

  结论

  人工智能的功耗问题开始敲响警钟,这是有充分理由的。但这与其他行业的兴起并无二致。关键在于我们如何应对。我们是应该创造更多清洁能源,还是应该以某种方式降低功耗?我们能否通过在半导体的舒适区之外进行设计来做得更好,还是这会限制其带来效益的速度?有人能完全理解他们所做决策的含义吗?

  解决方案需要众多利益相关者的共同努力,这在过去一直很困难。如今,软件开发的速度远远超过了硬件的响应速度,一些人希望人工智能能够加快这一速度。“人工智能的终极目标是完全设计出能够提高人工智能自身效率的芯片,”Normal 的 Maxim Khomiakov 说道。


供稿:电子工程世界

本文链接:http://www.cmcia.cn/content.aspx?url=rew&id=7103

成员中心

《伺服与运动控制》

《伺服与运动控制》

创刊于2005年,秉承面向市场、面向科技、面向应用、面向行业,集实用性、信息性、...

《机器人与智能系统》

《机器人与智能系统》

是深圳市机器人协会、中国传动网共同主办的聚焦机器人、智能系统领域的高端产经...

《直驱与传动》

《直驱与传动》

聚焦直驱产业,整合资源,为直驱企业与用户搭建桥梁。