AI芯片的动态功率控制技术解析

【AI芯片的动态功率控制技术解析】 NVIDIA发明的具有主动电源管理系统的GPU , 借助于人工智能技术 , 在保证性能的前提下提供了更好的可靠性 , 并且可用于需要高度可靠性的计算场景中 。
3D图形显卡在1999年NVIDIA公司推出GeForce 256时开始了其首次变革 , 这种硬件光影转换技术 , 极大的提高了计算机的图像显示性能 , 对游戏领域产生了重要的革命意义 , 同时也带给了用户极高的画面真实感 。
当前 , 图形处理器已经无处不在 , GPU不再仅仅用于图形应用 , 而是被广泛用于密集计算操作的应用程序 , 包括人工智能、实时识别和自动驾驶等领域中 。
就在2020年9月2日凌晨 , NVIDIA发布了RTX30系列显卡 , 分别为RTX3070、RTX3080和RTX3090 , 据悉 , 3070的性能比2080更强 , 价格确更加便宜 , 3080的性能是2080的两倍 , 价格却和2080一样 , 而3090则支持8K 60帧光线追踪 。
而随着人工智能芯片的兴起 , 不仅仅是各种人工智能训练需要借助于NVIDIA的图形显卡 , NVIDIA也在尝试将人工智能技术应用在GPU图形处理单元中 。在18年 , NVIDIA发布了一款全新的AI芯片 , 它将价值10000美元的性能 , 塞进了一个售价仅为1299美元的小盒子 , 30W功耗就可以与1万美元的工作站媲美 。
无疑 , 这样的技术对于AI芯片的功耗的要求非常高 , 因此需要电源控制器来最小化AI芯片的功率 。为达此目的 , NVIDIA在2020年2月13日发明了一项名为“指令和机器学习的能量特征有效地操作处理系统的技术”的发明专利(公开号:US 2020/0050920 A1) , 申请人为NVIDIA公司 。
根据该专利目前公开的资料 , 让我们一起来看看这项AI芯片的动态功率控制技术吧 。


AI芯片的动态功率控制技术解析
文章插图
如上图 , 为该专利中发明的AI芯片中主动电源管理控制系统的示意图 , 系统100中包含有多个GPU(102) , 这些GPU通过数字通信总线与其他部件互相通信 。在供电方面 , 这些GPU由配电网110供电 , 电源管理单元140监视着配电网供给的电流 , 同时电源管理单元接受由并行处理器116发送的功率控制指令 。
基于GPU当前的工作功率以及处理器所发送的信号 , 电源管理单元可以预测处理器在未来时段所需要的电量 , 并控制提供给GPU的电压 , 以便于为GPU提供适当的功率 。这样不仅可以保证GPU发挥稳定的性能 , 同时也可以控制GPU的功耗 , 更重要的是 , 通过预先在需要高功率的时段来限制其功率 , 可以避免出现电流过载的情况 , 否则可能导致电路损坏或者电源过热 。
由此看来 , 电源管理模块的预测工作是十分重要的 , 在NVIDIA的方案中 , 使用基于硬件的深度学习加速器对于深度神经网络进行加速 , 从而对处理器的功耗进行预测 。


AI芯片的动态功率控制技术解析
文章插图
如上图 , 为预测GPU功率的功率控制技术流程图 , 首先 , 输入功率监视器采用ADC(数模转换芯片)来对于提供给GPU的电源进行采样 , 采样包括输入的电流以及电压 , 并将采样结果转换为数字信号输出 。
其次 , 并行处理器接收预测功率信号的指令 , 这样可以确定预测的GPU功率与当前功率之间的差值 , 在确定误差之前 , 需要对预测功率进行缩放 , 以使其与当前功率处于正常的比例之中 。
这种操作基于深度学习的方法 , 来更新自适应PID控制器 , 因为并行处理器的工作负载可以在短时间尺度上变化 , 因此 , 处理器可以主动控制输入到GPU的电源 , 并根据并行处理器中的工作负载变化来优化处理器的性能和功耗 。


AI芯片的动态功率控制技术解析
文章插图
如上图 , 为这种具有学习机制的实现主动电源管理技术的电路示意图 , 其中电路400包括ADC(118)、滤波和缩放器电路420、状态向量寄存器430、PID控制器440、电压控制器450以及学习系统460 。
该专利中特别提及 , 虽然处理器可以通过对于指令进行解析 , 来估计是否需要更高或者更小的功率 , 但是处理器可能并不知道通过执行这种指定的指令具体需要消耗多少功率 。
这就像一个长跑运动员 , 他可能大概知道在半程马拉松比赛中可能会消耗多少卡路里的能量 , 但是通常无法预测小段路途中的具体卡路里能量消耗 , 因为具体的能量消耗与太多的因素关联 , 例如环境条件、温度、实际速度以及自身体重等的变化 。
所以 , 具体的电源使用情况还是取决于处理器的软件指令的特定顺序 , 尽管处理器可以预估消耗的功耗 , 并对GPU的功率进行大致的调整 , 但是由于制造工艺以及不同的计算任务 , 因此并不能精准的进行功耗控制 。
以上就是NVIDIA发明的基于人工智能的芯片功耗控制系统 , 这种具有主动电源管理系统的GPU智能芯片 , 在保证芯片性能的前提下具有更高的可靠性 , 因此可用于需要高度可靠性的计算环境 , 例如:数据种心、服务器环境等 。此外 , 在目前较为火热的智能驾驶领域中 , 这种方案不仅可以避免电流因为瞬间的下降而影响自动驾驶的通信信号 , 而且还可以通过实现更快的功率管理响应来改善车辆的功耗消耗 。
关于嘉德


AI芯片的动态功率控制技术解析
文章插图
深圳市嘉德知识产权服务有限公司由曾在华为等世界500强企业工作多年的知识产权专家、律师、专利代理人组成 , 熟悉中欧美知识产权法律理论和实务 , 在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验 。
责任编辑:tzh

    推荐阅读