苏州钰尚传媒-商业品牌企业运营服务商-专业高端视频拍摄服务、商业品牌宣传片制作、企业产品广告片TVC微电影动画片视频、媒体宣传发布推广、品牌宣传软文发布、苏州广告标识牌设计制作,平面广告装饰、多媒体广告展厅文化墙装修全包、钰尚文化传媒——合作咨询 联系微信:esay8168 ,联系:电话18888186853微信同号

扫微信二维码

联系

电话18888186853微信同号




这里是文章模块栏目内容页
性能8.6倍于竞品!高通AI大揭秘:NPU引领四兄弟无敌

生成式AI的变革,对于基础硬件设计软件生态开发都提出了新的、更高的要求,尤其是底层硬件和算力必须跟上新的形势,并面向未来发展做好准备。

近日,高通特别发布了《通过NPU异构计算开启终端侧生成式AI》白皮书,对于终端侧生成式AI的发展趋势,以及高通骁龙处理器的多模块异构计算引擎,尤其是NPU的设计及优势,都进行了详细解读。

生成式AI虽然这两年才火热起来,但是AI的发展历史悠久,高通也早在2007年就打造了Hexagon DSP,其控制和标量架构正是后续NPU的基础。

2015年发布的骁龙820处理器集成了首个高通AI引擎,支持成像、音频和传感器运算。

之后,2018年的骁龙855又增加了Hexagon张量加速器。

2020年骁龙888里的全新架构Hexagon NPU堪称里程碑转折,并在之后的三代骁龙8中持续迭代演进,AI性能、效能和范围不断拓展。

比如第三代骁龙8的张量运算核心的峰值性能就大幅提升了98%,同时依然保持高超的能效。

高通在AI方面采用的是异构计算引擎思路,由Kryo CPU、Adreno GPU、Hexagon NPU、传感器中枢四大核心模块共同组成,彼此协作。

根据终端类型、终端层级、关键性能指标、时延等因素的不同,这种架构可以使用不同的组件进行AI处理,以达到最佳效率。

比如说,CPU计算量一般,但擅长顺序控制和即时性,非常合对延迟要求非常高的场景,比如时序敏感性小模型,比如卷积神经网络模型(CNN)或者特定大语言模型(LLM)。

GPU擅长高精度格式的并行处理,比如对画质要求非常高的图像、视频处理,同时算力非常强,可运行大规模的模型。

NPU擅长标量、向量和张量数学运算,而且能效非常高,能够以极低功耗实现持续稳定的高峰值性能,在基于LLM和LVM(大视觉模型)的不同用例中,比如说Stable Diffusion或其他扩散模型,每瓦特性能十分出色。

高通传感器中枢则能以极低功耗运行始终开启的用例,可获取大量端侧情境信息,让生成式AI体验更加个性化,这也是终端侧AI的独特优势之一,并且信息保留在终端上,不会联网上传到云端,隐私更安全。

如此设计的异构计算,能够实现最佳的应用性能、能效和电池续航,以最大化提升生成式AI终端的用户体验。

这里重点说说NPU。

NPU全程为神经网络处理器,是专为低功耗加速AI推理而打造的硬件模块,架构上随着新AI算法、模型和用例的发展而不断演进。

Al工作负载主要包括由标量、向量和张量数学组成的神经网络层计算以及非线性激活函数。

优秀的NPU设计,能正确选择如何处理AI工作负载,同时与CPU、GPU等其他模块协同执行,并与AI行业发展方向保持高度一致。

高通Hexagon NPU就是为了以低功耗实现持续稳定的高性能AI推理而设计,其差异化优势在于系统级解决方案、定制设计和快速创新。

通过定制设计NPU并控制指令集架构(ISA),高通可以让NPU快速演进和扩展,以解决遇到的任何瓶颈问题,并优化性能。

高通透露,最初开始研究NPU的时候,关注的是一些简单用例,比如用于音频和语音处理的卷积神经网络模型(CNN)和长短期记忆网络模型(LSTM),2015年第一代高通AI引擎的Hexagon NPU就集成了标量和向量运算扩展。

2016-2022年间,高通将研究方向拓展至AI影像和视频处理,比如暗光拍照、降噪、多帧处理等,同时引入了Transforme层处理,因此增加了张量运算核心(Tensor Core)。

2023年,Hexagon NPU开始支持LLM和LVM,并支持Transformer,可以更好地处理基于Transformer的模型。

如今第三代骁龙8集成的Hexagon NPU已经能够在终端侧运行高达100亿参数的模型,无论是首个token的生成速度,还是每秒生成token的速率,都处在业界领先水平。

值得一提的是,Hexagon NPU还引入了用于图像处理的微切片推理技术,增加了能够支持所有引擎组件的大共享内存,最高支持到4.8GHz频率的LPDDR5X,LLM处理能力更上一层楼,可快速处理百川、Llama2等等。

性能8.6倍于竞品!高通AI大揭秘:NPU引领四兄弟无敌

说了半天原理,看看实际性能表现,首先是第三代骁龙8和三款安卓、iOS平台竞品的对比。

鲁大师AIMark V4.3测试中,第三代骁龙8的总分达到了竞品B的5.7倍、竞品C的7.9倍。

安兔兔测试中,第三代骁龙8的总分是竞品B的6.3倍。

MLCommon MLPerf推理的不同子项中,比如图像分类、语言理解、超级分辨率等,第三代骁龙8也都保持领先。

性能8.6倍于竞品!高通AI大揭秘:NPU引领四兄弟无敌

PC端对比骁龙X Elite和其他x86架构竞品。

Windows系统下的UL Procyon AI推理测试中,骁龙X Elite在ResNet-50、DeeplabV3等测试项目中都大幅领先,总分是竞品A的3.4倍、竞品B的8.6倍。

近日在巴塞罗那举办的MWC 2024大会上,高通还展示了在终端上运行的多模态生成式AI模型。

在第三代骁龙8上运行的首个大语言和视觉助理大模型(LLaVA),能基于图像输入,回答用户提出的问题。

比如为视障人士在城市内进行导航,就可以将图像信息转换成语音,帮助他们了解周围的事物。

顺带一提,高通还展示了基于骁龙X Elite笔记本,首个在终端侧运行的超过70亿参数的大型多模态语言模型(LMM),可接受文本和音频输入(如音乐、交通环境音频等),再生成多轮对话。

硬件AI能力之上,高通还打造了AI软件栈(AI Stack)。

它可以支持目前所有的主流AI框架,包括TensorFlow、PyTorch、ONNX、Keras;支持所有主流的AI运行时,包括DirectML、TFLite、ONNX Runtime、ExecuTorch;还支持不同的编译器、数学库等AI工具。

此外,高通还有AI Studio,可为开发者提供开发过程中需要用到的各种相关工具,包括支持模型量化和压缩的高通AI模型增效工具包(AIMET),能够大幅提高模型运行的效率。

高通认为,AI终端市场的发展还在初期阶段,但已经为高通的不同产品和解决方案带来了显著的改进,对消费者的重要性也在不断增加,无论教育、医学还是养老等各个领域,AI的作用将愈发凸显。

互联网出现的时候,只有少数人能够利用PC上网,而智能手机的出现让数十亿人都能够连接网络。

相信终端侧生成式AI的发展也是如此,它将让所有人都能充分利用生成式AI,改变工作、娱乐和生活中的切身体验,变革各行各业。

()

(来源:站长之家)
免责声明:本站文章部分内容为本站原创,另有部分容来源于第三方或整理自互联网,其中转载部分仅供展示,不拥有所有权,不代表本站观点立场,也不构成任何其他建议,对其内容、文字的真实性、完整性、及时性不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容,不承担相关法律责任。如发现本站文章、图片等内容有涉及版权/违法违规或其他不适合的内容, 请及时联系我们进行处理。
传媒行业的商业全面服务 与您共创美好未来
合作共赢
  • 交互式网络传媒领域
  • 资源丰富,体系完善
  • 创造更加精准、有效的,线上线下互动品牌整合服务
  • 多年传媒行业尽管,见证品牌及产品的蜕变、递增和成长
创造优势
苏州钰尚传媒-商业品牌企业运营服务商最新资讯
致力于传媒行业领域的专业公司
长沙 北京 广州 上海 深圳 中山 珠海 河北 山西 广东 山东 河南 浙江 四川 安徽 湖北 湖南 陕西 福建 辽宁 云南 广西 江西 贵州 甘肃 吉林 黑龙江 海南 内蒙古 西藏 宁夏 青海 重庆 天津 香港 台湾 澳门 江苏 南京 苏州 无锡 徐州 常州 南通 扬州 盐城 淮安 泰州 镇江 宿迁 连云港 苏州吴中区 苏州相城区 苏州平江区 苏州沧浪区 苏州金阊区 苏州工业园区 苏州园区 苏州高新区 苏州新区 苏州虎丘区 苏州张家港 苏州常熟 苏州昆山 苏州太仓 苏州吴江