嵌入式系统设计人员如何解决与机器学习相关的难以置信的复杂性？

当前位置：首页 > 嵌入式培训 > 嵌入式学习 > 讲师博文 > 嵌入式系统设计人员如何解决与机器学习相关的难以置信的复杂性？

嵌入式系统设计人员如何解决与机器学习相关的难以置信的复杂性？时间：2021-03-05 来源：原创

机器学习经历了无数次沉迷，每一次都伴随着对技术过度热情的抽搐。但这可能是解决嵌入式系统设计人员现在面临的令人难以置信的复杂情况的唯一方法–嵌入式处理器设计人员的策略中已经体现了这一点。

ARM IP产品小组负责人Rene Haas表示：“我们相信机器学习是影响我们计算领域的最重要的变化之一。我们相信，从现在开始，人们将不再将机器学习视为计算机学习的独特类别，而将成为计算机所做的一切的本机。”

尽管人们倾向于通过Apple Siri等服务将机器学习与图像和音频识别相关联，但市场上已有的系统将大量数据发送到云中进行处理。哈斯说，这种情况正在迅速改变。

“上升的是可以在边缘进行的推理和训练的数量。分析的水平，学习的水平，本地执行的复杂程度的增长速度比我认为所有人都预期的要快得多。”哈斯解释说，他指出带宽和服务器容量问题是主要问题。

“为什么不将数据发送到云？世界上没有足够的带宽。互联网只会崩溃。Google自己说，如果世界上每个拥有Android手机的人都只能使用语音助手3分钟，那么服务器数量就要增加一倍。”

除了语音响应和图像识别的消费者可见的应用程序之外，机器学习正在进入深度嵌入的应用程序。Ceva决定将机器学习整合到面向下一代移动电话的Penta-5G IP内核中。Ceva业务发展总监Emmanuel Gresset表示，结合MIMO和波束赋形等技术，才有可能实现5G带来的带宽增加：“只有在链路自适应做得很好的情况下，这才是有效的。但这是一项复杂的任务。如果链路适配不准确，则将无法实现吞吐量，并且会消耗更多功率。

“我们研究了传统的，更具算法性的方法。[parameter]维太大，以至于需要很多内存。复杂度成倍增加。这就是为什么我们提出了一种基于神经网络的方法。AI处理器将通道条件作为输入，并计算最佳的传输参数。” Gresset指出。

权衡取舍

机器学习加速器的设计者面临的问题是灵活性和能耗之间的权衡。有许多实现，计算机科学家正在迅速添加各种修改，以尝试适应不同类型的数据和应用程序。无法保证当前流行的卷积神经网络（CNN）仍将占主导地位，因为研究人员正在研究其他选择，包括基于统计处理的技术（例如高斯过程）到从神经病学中比从CNN中获得更多收益的体系结构。

Achronix营销副总裁Steve Mensor认为，通用处理器具有处理最广泛选择的能力，但是他们已经看到了最好的时机：“随着任务变得越来越复杂，时钟速度已经最大化，这意味着我们需要更多的CPU。唯一不断上升并向右移动的是晶体管数量。所有其他功能均已逐渐减小。因此，CPU不能满足市场需求的能力似乎已经丧失。加速器将是强大的力量。许多新兴公司正在研究不同的体系结构，但它们都在致力于针对特定应用的高度并行化的计算单元上工作。”

为了在效率和可编程性之间保持平衡，Ceva，Cadence Design Systems和其他公司倾向于使用专门的指令与更具体的硬件加速器一起使用来增强并行化的DSP。加速器执行常用的操作，例如阈值化步骤，通常在神经元合并了所有输入数据后进行。

其他供应商正在将AI加速器构建到可编程逻辑结构中，以利用这些设备使在处理元件之间轻松路由数据的方式而无需在每个阶段都将数据移入和移出内存的能源消耗。Xilinx看到了其FPGA以及主要竞争对手Intel PSG的FPGA，并已进入数据中心刀片以完成各种加速任务，包括机器学习，Xilinx的目标是利用即将推出的“ Project Everest”设备来抓住这一转变。这些将使用片上网络将核心可编程逻辑架构链接到更专业的可编程加速器，CEO Victor Peng表示，他希望将在运行中对其进行重新配置。

Mensor认为嵌入式FPGA技术比现成的产品具有优势。嵌入式IP为客户提供了将自己的优化添加到可编程结构的能力。他说，该公司已经与客户合作，为CNN构建专用内核：“它们处理不同类型的对象识别应用程序，并且使用一系列内核。我们拥有的内核已将DSP更改为它们具有的要求，从而将这些模块的硅面积减少了50％。总体而言，我们将最终设备的芯片尺寸减少了35％。”

Peng说，嵌入式FPGA公司的缺点是只能使用可编程逻辑技术，而没有独立设备制造商可以使用的其他IP内核，例如高速Serdes I / O端口。

Mensor说I / O本身变得不那么重要了，因为嵌入式FPGA技术使得更容易将更多的内容挤入单个裸片中。他指出了现有的数据中心应用，根据他的公司的估计，其中多达60％的FPGA专用于I / O。非常广泛的本地内存互连减少了到达本地存储数据的延迟和功耗。

但是，CNN对数据的胃口很大，因此很难将所有内容都带到芯片上。Cadence的AI和影像IP产品开发总监Pulin Desai说：“人们意识到可以放置在芯片上的内存数量是有限的。所以问题是：我们还能找到其他方法吗？”

许多供应商正在研究减少受训的CNN需要访问的数据量的技术。大多数人已经实现了狭窄的数据路径，因为高分辨率数据在培训中很重要-可以将其卸载到远程服务器上-但是对于实时推理过程，窄至8位的位宽可提供合理的性能。有迹象表明，人工神经元执行的某些权重计算可以缩减为二进制。通常，存在可以完全删除的冗余路径。另一种选择是压缩静态数据，仅在需要时才对其进行解压缩。

Desai指出：“压缩重量以及动态修剪和解压缩都有很多活动。”

最终，机器学习和其他数据密集型算法中的内存问题将在未来十年占据主导地位，这可能会迫使架构发生更根本的变化。服务器设计人员已经在将更多的处理推向闪存子系统。尽管编程将更加困难，但是通过内存分布的处理器可能是在不显着增加能耗的情况下满足提高性能需求的唯一方法。

上一篇：嵌入式FPGA的吸引力能否克服传统的成本障碍，并最终实现加速增长

下一篇：迈向5G之路

热点文章推荐

华清学员就业榜单

高薪学员经验分享

热点新闻推荐