如何加速智能制造下的数字化转型?——基于GPU的应用场景解读

2022-07-27 18:15:01 147小编 219

随着中国制造2025的提出,制造企业实现智能制造不仅是趋势,更成为是否可以生存下去的前提条件。智能制造对连接性、计算能力、服务速度和质量等方面有着前所未有的需求和期望。边缘计算正是充分利用物联网终端的嵌入式计算能力,并与云计算结合,通过云端的交互协作,实现系统整体的智能化。但是对于传统制造企业仍然面临很多问题,如新技术满天飞,选择难;边缘计算平台如何与现有生产系统集成;边缘数据的存储与管理等。不久前twt社区组织汽车制造行业专家和NVIDIA资深专家解读了边缘计算GPU应用趋势场景以及国内外实践案例,同时答疑解惑,现将活动交流和分享总结如下,供大家参考。

Q1

工业设备数字孪生是如何实现的,怎样通过GPU进行加速?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

数字孪生,就是针对物理世界的实体,通过数字化手段构建一个数字世界中的完整分身,能够和物理实体保持实时的交互联接,借助历史数据、实时数据以及算法模型等,通过模拟、验证、预测、控制物理实体全生命周期过程,实现对物理实体的了解、分析和优化。

  • 数字孪生在工业制造的应用

由于数字孪生早期的应用与工业制造领域密不可分,因此工业制造也是数字孪生的主要战场。

  • 产品研发阶段

在工业制造领域,要完成产品部件的设计修改,尺寸装配,通常需要反复尝试,耗费大量人力物力。利用数字孪生可以为工业生产建立起虚拟空间,在该技术之下,工程设计师不仅能看到产品外部变化,更使内部零件动态的观察成为可能。

例如,通过数字3D模型,我们可以看到汽车在运行过程中发动机内部的每一个零部件、线路、各种接头的每一次变化,从而大幅降低产品的验证工作和工期成本。

  • 制造生产阶段

在制造生产中,建立一个生产环境的虚拟版本,用数字化方式描叙整个制造环境,在虚拟数字空间中进行设备诊断、过程模拟等仿真预测,可以有效防止现场故障、生产异常产生的严重后果。

将生产环境、生产数据、生产流程实现数字可视化。从设备上的传感器中导入数据,实时监测到设备每个部位的轴温、开机时长、当前生产阶段、设备利用率、产量等关键数据信息

那如何通过GPU加速,就是将上述的需要图像化的和数据建模的场景,在这种逻辑性不强,但计算强度高的场景时,GPU加速就远远超过了CPU的能力。

@许从良 NVIDIA解决方案工程师:

NVIDIA Omniverse™是专为虚拟协作和物理属性准确的实时模拟打造的开放式平台。

合作者们在不同的机器上跨多个应用程序工作, 通过不同的应用软件建模道具,建立环境,纹理绘制,照明,或添加动画或效果等等,每个应用程序组成他们的场景的一部分,它们每个都连接到Omniverse Nucleus, 这是一个数据库和协作引擎,用来进行3D资产和场景描述的交换。每个连接的用户都只是传递和接收变化的增量作为USD片段,这使他们能够实时看到共享场景的变化。

Omniverse是一个基于物理的平台,集成了NVIDIA的核心模拟技术,用于材料、物理、AI和实时光线和路径跟踪渲染。因此,构建在Omniverse中的场景是遵循物理定律,是真实的。

对于一些 developer或者ISV partner,Omniverse有下列一些基础组件:

  • Omniverse Connect打开了门户,允许设计软件工具连接到Omniverse平台并保存USD(Universal Scene Description)和MDL(MATERIAL DEFINITION LANGUAGE)内容。有了Omniverse,用户可以继续在他们喜爱的行业软件应用程序中工作Omniverse Nucleus允许用户存储、共享和协作项目数据,并提供跨多个应用程序实时协作的独特能力。
  • Nucleus在本地机器上工作,在场地上,或在云上。
  • Omniverse Kit是一个强大的工具包,开发者可以创建新的Omniverse应用程序和扩展 。
  • Omniverse Simulation由NVIDIA的核心技术提供动力,这些技术可以模拟世界,包括 PhysX、Flow、Blast和刚体动力学。
  • Omniverse RTX Renderer是一种先进的,基于NVIDIA RTX多GPU渲染器,支持实时光线跟踪和超快速路径跟踪。

Omniverse APPS是专为加速不同工作流而设计的应用程序。Omniverse APPS 可以由第三方开发者在Omniverse Kit上构建。对于上层industry用户, 我们有一些生成好的如下application:

  • Omniverse View支持建筑和工程项目的无缝协作设计和身临其境的可视化以及逼真的渲染。
  • Omniverse Create加速了高级场景合成,并允许用户在Pixar USD中实时交互地组装、照明、模拟和渲染场景。
  • Omniverse Machinima是为GeForce RTX玩家构建的,以混合和渲染视频游戏的。
  • Omniverse Audio2Face从一个音频源生成表情动画,这是AI的一项应用。
  • Omniverse Kaolin是一个强大的可视化工具,使用NVIDIA Kaolin PyTorch Library简化和加速3D深度学习研究。在DL深度学习,OpenCV可视化方面,通常用点云方式或者代码工程师自己写OpenGL代码,但往往可视化效果都是比较差的,想实现光照效果也很难调整,但用Omniverse Kaolin可以方便地实现满意的可视化效果。
  • NVIDIA Isaac Sim是一个机器人应用程序,用于在逼真和高保真的物理3D环境下2导入,构建和测试机器人。

Q2

工控视觉在生产制造中如何利用GPU进行加速?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

工控视觉是生产制造中非常重要的一个应用场景,它需要进行大量的图像建模,利用3D或者现实图像流进行生产线上的图像收集,但这些数据,有些是需要在边缘端直接处理掉的,这个时候就是利用GPU加速的好时机,因为这种一般是需要近实时的,如果采用传统的CPU来处理,则速度会比较慢,影响到实时性。

@崔晓楠 NVIDIA Devrel:

感觉您提到的应该是-工业视觉。

从行业发展来看, QA及质量将会是目前企业面临的一个很大的挑战,尤其在当今劳动成本的不断提升,传统目检工作越来越不被新一代工人所接受的前提下,计算机视觉可以起到一个很好降本增效的助推器,提到计算机视觉就不能忽视已经很成熟的机器视觉,其在测量,定位,识别等场景已经有超过10年的发展历程,并持续在帮助制造业提效降本,但是机器视觉始终无法解决相对复杂的视觉问题,譬如对缺陷程度的判定,更多缺陷种类的划分,高亮度甚至极小瑕疵的检测等等,伴随人工智能的发展,基于AI的计算机视觉被越来越关注,近年来,开始有越来越多的玩家,从BAT到众多的Startup公司,包括大型企业内部自身孵化,都可以看到这个方向活跃的参与者,目前提及很多的工业4.0或智能制造中,智能化的一个重要场景体现,也会在计算机视觉-工业检测这个场景中。

反观整个工业检测,对于精密制程或高节拍的生产环节往往都是一个复杂的系统工程,会包括图像采集,光源,运动配合,预处理,数据准备,模型训练及迭代,模型推理,后处理追踪,MES集成等众多环节,AI算法只是其中很重要的一个部分,整个项目在企业内部也应该是一个从上到下,多部门协作的项目,包括生产制造对于AI的预期,譬如漏检率,过检率有一个充分的预期和沟通。从目前落地的情况看,半导体,面板,新能源,高端3C,汽车等行业接受和落地的程度较好,特别是先进制程和精密制造方向,对于企业QA的提升和成本优化,都可以起到明显的提升,另外一个感受就是,解决方案的复制性不强,定制化内容居多,这也是成本居高的一个原因。

关于GPU加速的部分,主要集中在上面提到的AI算法部分,在模型训练的部分,可以参考NVIDIA的迁移学习工具TLT(Transfer Learning Toolkit利用我们提供的预训练模型,加快模型训练的效率,在推理加速部分,可以参考DeepStream SDK快速构建推理Pipeline并加速视频分析类业务场景,建议关注TensorRT(developer.nvidia.com/tensorrt/),特别是近期发布的TensorRT8,特别是稀疏性(Sparsity)与量化感知训练(Quantization Aware Training,QAT),可以极大加速模型的推理速度及INT8在边缘推理中的适配。

Q3

成熟的边缘计算应用场景有哪些?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

边缘计算场景,要看业务需要在边缘端执行,并可以容器化的场景,比如现在比较多的是MES系统、WMS系统等,特别是MES这种将提升制造业的自动化管理能力,它可以通过区分小MES和大MES,小MES一般是和工业设备结合比较紧密的、实时的,所以需要在边缘端运行,大MES可以放云端。

还有与IOT数采结合紧密的场景,比如IOT数采软件化的工具,一般需要边缘计算。

还有无人机监控生产设备场景,比如华电集团这种机器人等。把机器人作为一个边缘节点接入到云上,通过在云端下发机器人应用程序,比如视觉识别,监控应用等的下发,升级。

还有一些是需要在边缘侧数据分析的场景,比如为了缩小数据量,节省带宽,又需要实时处理的刀片切割数据等都需要在边缘侧部署相关应用程序,tdenge、kuiper、emqx 等等。

@崔晓楠 NVIDIA DevRel:

在制造业的场景中,覆盖了生产、物流、经营管理、客服等诸多领域,并将保持快速增长。主要的应用场景包括工业检测,预防性维护,生产安全保护,数字孪生,智能机器人,实时数据采集及分析,智能物流及供应链,生产过程智能化,智能客服等众多场景。

在其他行业,边缘计算的应用场景也非常丰富,在零售及物流行业,基于视频分析的包裹追踪管理,生产及环境安全管理,客流管理,场站安全管理,智慧园区等都是边缘计算的重要场景。在交通行业,V2X车路协同场景中,执行路侧或路口感知任务的MEC(Multi-access Edge Computing)多接入计算单元也是典型的边缘计算的场景,通过多设备或多传感器的接入(视频 + 毫米波雷达 + 激光雷达 ),实时感知和分析道路上发生的各类事件和路况,并将这些事件或告警及时广播或发布出来,有效的提高安全性和交通效率 。

Q4

边缘计算与传统的计算模型(云计算、分布式)的差异?

@崔晓楠 NVIDIA DevRel:

边缘AI有一系列独特的要求。边缘系统分散在广阔的物理距离范围,缺乏数据中心的集中性。软件或系统更新要么需要手动执行,要么需要集中管理,以便轻松地在庞大的设备群中部署 、 管理和扩展软件。

此外 ,边缘计算基础设施的安全要求不同于云或数据中心计算的模式 。边缘位置不具备数据中心的物理安全性,因此用于保护应用程序 IP 和传感器数据的端到端安全模型对于成功实现部署至关重要。

可以类比看做,分布式计算与集中计算,分布式计算(边缘计算)可以满足业务系统实时计算处理的要求,对于海量或富媒体数据的处理尽量发生在数据产生的端侧,减少网络传输,特别是低延时应用的需求,同时由于分布式,特别是基于地域的分布式,对于管理和安全性的要求就会特别高,这也是边缘计算一个很大的落地挑战,目前比较好的应对,第一,应用颗粒度尽量清晰,首选的技术就是容器,虽然相对体积还有些大,对比VM已经好了很多,结合OTA技术的成熟,目前看容器是一个很好的折中方案,第二,云边协同,云边数据交换及协同的能力,是边缘计算重要的一个基础,实现云原生的云边协同管理平台及安全集中管理,这也是为什么NVIDIA在今年推出EGX PlatformFleet Command软件参考架构,通过Fleet Command软件帮助客户实现云边数据及应用的协同,设备集中的管理与监控等功能 。

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

边缘计算与云计算本质上没有太大区别,边缘计算的出现是云计算发展一定阶段后,越来越多的技术开发者,想把云计算这种资源弹性、高可用、分布式等能力下沉到边缘端,让边缘端也具备云上的这些功能,特别是云原生生态的出现,不管是业务的易部署还是业务的高可用,分布式等等,都催生了边缘计算的发展。

更具体点的说,云计算是集中化的,离终端设备(如摄像头、传感器等)较远,对于实时性要求高的计算需求,把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。而终端设备通常计算能力不足,无法与云端相比。在此情况下,边缘计算顺应而生,通过在靠近终端设备的地方建立边缘节点,将云端计算能力延伸到靠近终端设备的边缘节点,从而解决上述问题。

Q5

在工业4.0和中国制造2025的大背景推动下,边缘计算在制造业的发展趋势如何?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

边缘计算适用的场景会有很多,比如工业制造、智慧园区、智慧楼宇、智慧医疗等等。由于云计算是集中化的,离终端设备(如摄像头、传感器等)较远,在制造业方面,比如刀片控制、打点、电焊等等,对于实时性的要求很高,把计算放在云上会引起网络延时变长、网络拥塞、服务质量下降等问题。在此情况下,边缘计算顺应而生,通过在靠近终端设备的地方建立边缘节点,将云端计算能力延伸到靠近终端设备的边缘节点,从而解决上述问题。所以在制造业和其他需要实时处理或响应任务的场景,特别是现在IoT、5G技术的发展,结合边缘计算技术,未来可期。

@王永祥 NVIDIA EGX 产品总监:

在工业4.0的快速发展的大背景下,遍布工厂车间等各个位置的数十亿个摄像头、物联网传感器等可生成海量数据,具有助力实现业务转型的潜力。正因如此,边缘计算 ( 将计算能力引入数据收集位置的过程)成为企业计算中增长最快的趋势之一 。

通过缩短数据收集位置与数据处理位置之间的距离,企业可以迅速响应以实现实时洞察,充分发挥潜力。几乎每个行业都在对边缘计算进行投资,以加速AI工作负载。根据IDC的2020年边缘支出指南,未来四年,企业在边缘硬件、软件和服务方面的支出将以12.5%的年复合增长率快速增长,预计到2024年将达到2500亿美元。具有人工智能能力的边缘计算将成为制造业和其他行业最快的增长引擎之一。边缘计算将会制造业的数智化推向更快落地和产业升级换代转型。

Q6

边缘计算与制造业的结合,将提升制造业哪些场景的能力?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

找准哪些边缘业务需要在边缘端执行,并可以容器化的场景,比如现在比较多的是MES系统,WMS系统等,特别是MES这种将提升制造业的自动化管理能力,它可以通过区分小MES和大MES,小MES一般是和工业设备结合比较紧密的,实时的,所以需要在边缘端运行,大MES可以放云端。

另外,制造业一个很重要的场景是要监控设备的运行状态,比如通过IOT数采后,将数据上传到云端,最后进行数据分析后,形成设备云眼,这个就是所有边端设备的一个近实时的监控平台,而其中的IOT数采今后会越来越多的使用软件来代替硬件盒子实现,比如EMQ的 neuron、emqx server,甚至需要在边缘侧进行数据分析的tdengine等都是需要利用到边缘计算功能,这些软件的部署、升级,一般都是需要通过云端部署后,下发到边缘端的。

Q7

汽车制造企业如何推进边缘计算,切入点有哪些方面?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

边缘计算是需要和业务一同讲才可以落地的。要边缘计算,一般需要和云计算进行协同,所以首先需要解决应用以容器的方式从云端下发到边缘端,所以切入点就是要找准哪些边缘业务需要在边缘端执行,并可以容器化的场景,比如现在比较多的是MES系统、WMS系统等。然后还可以找那种云边协同的,比如设备数采后,需要在边缘侧预处理,并上报到IOT平台,将数据分类处理,再下发到云端数据分析平台进行处理、训练、建模,最后到监视看板或者将所建的模型再下发到边端的场景。

@崔晓楠 NVIDIA DevRel:

并不是所有的系统都适合边缘部署,如果目前的架构已经满足业务的需求,那就是最好的实现了,举个例子,对于一些检测类的业务,也并不一定边缘处理就是最佳架构,如果业务的时延要求可以在秒~几秒的级别,集中式的推理服务也是不错的选择。

Q8

车联网/自动驾驶应用场景如何更好的基于GPU实现边缘计算提速和提高利用率?

【问题描述】车联网/自动驾驶对时延的要求极高,数据传输及处理量极大;如何更好的基于GPU实现边缘计算提速?如何通过GPU加速提升基础架构利用率,及让GPU资源得到充分利用?实际遇到部署成本高,需求不是刚性的;用到的硬件需标准化;及如何保证边缘计算的安全等问题。

@崔晓楠 NVIDIA DevRel:

车联网及V2X 车路协同场景中,执行路侧或路口感知任务的MEC (Multi-access Edge Computing) - 多接入计算单元是典型的边缘计算的场景,通过多设备或多传感器的接入(视频+毫米波雷达+激光雷达),实时感知和分析道路上发生的各类事件和路况,并将这些事件或告警及时广播或发布出来,有效的提高安全性和交通效率。目前在车联网的场景中,经常遇到的时钟(帧)同步,多传感器融合,点云数据的加速等问题,NVIDIA与我们的合作伙伴可提供完备的解决方案,尤其对于激光雷达的点云数据加速处理部分,我们也会开源一些基于 CUDA 的加速实现,供广大的开发者参考和迭代。

https://github.com/NVIDIA-AI-IOT/cuda-pcl

GPU更多指的硬件,对于GPU的使用和调度,是通过CUDA实现,CUDA是可编程的一个软件堆栈,同时NVIDIA也基于CUDA写好了很多的基于行业加速的SDK,帮助开发者更快的使用CUDA和GPU。

Q9

基于GPU的边缘计算,是否可以提高生产安全监管?

【问题描述】在整车生产环节,冲焊涂等工艺环节,对于安全的监管尤为重要,NVIDIA是否有基于GPU边缘计算的解决方案,不仅仅是提供算力,作为整车厂来说,最需要的是可以共创的解决方案?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

生产安全监管,主要通过生产制造流程管理,也就是我们常说的MES,它提供了生产自动化及安全管理的功能。

还有就是结合边缘侧的图像识别,工控视觉,数据分析,监控告警等来实现生产安全监管,通过采集大量的场景图像视频数据,将数据送云并在云端数据处理,训练、建模后,将监管模型下发到边缘侧,并基于GPU加速,快速实现有效、实时的安全监管。

@潘延晟 系统工程师:

对边缘计算也是刚刚接触。不过对只工业环境相对了解一些。我觉得基于GPU的边缘计算,是可以辅助提高生产安全监督的。比如对特定区域的安全监控,一些生产设备的监管,但我觉得这种监管应该还是相对辅助的。毕竟生产安全是目前企业要面对的重要问题。之前接触过一些厂家的安全做法。

是基于安全本质化的。总体的原则就是我不依靠对人的教育解决安全问题。不依靠监控手段来监督安全,而是从根本上解决安全存在的隐患。举个例子,对于厂区入场的通道。

如果需要你缓慢进入,或者进行瞭望进入的地方,前端会设置多到栏杆,让如口成为S型。人在通过路口的时候是被迫减速的。无论你怎么想快都要左桡又绕的绕过这些栏杆才能通过。自然也就达到了让你减速观察的目的。一些危险设备,直接设置隔离栅栏。一旦栅栏被打开,直接设备会停止,防止发生故障,所以安全固然需要监管。但应该还是辅助手段。

@崔晓楠 NVIDIA DevRel:

基于GPU的边缘计算已经开始广泛在制造、零售、物流、安防等行业落地,如可实时监测各行业工作场地各类违规操作,6S管理规范,SOP执行情况等。在生产制造等环节通过边缘计算中的视觉检测来增加良率,提升生产安全。在视频分析的应用中,有很多的场景都是面向生产安全监管的,通过NVIDIA的视频分析SDK - DeepStream,可以轻松实现对于厂区或操作间的员工着装,安全帽检测,异常区域访问,吸烟等众多基于6S安全生产方面的事件检测及触发告警,譬如在物流行业,通过视频分析的方式,实现货物跟踪及不合规包裹分拣等异常行为的检测。

Q10

GPU边缘计算场景下如何保障数据安全?

@许从良 NVIDIA解决方案工程师:

Fleet Command要求边缘服务器配置TPM模块,另外会有专用的定制化的OS,边缘端激活时需要与云端秘钥匹配。所有已处理的数据在传输过程中和静态时均会加密,上传到private registry的AI应用程序经过漏洞和恶意软件扫描,可以确保所部署的每一个应用程序都是安全的。

另外推荐用NVIDIA Bluefiled,它有多个层面的安全保障:

  • secured hardware( HARDWARE ROOT OF TRUST), 包括secure firmware upgrade,secure boot,Arm Trust Zone
  • Advanced L4- L 7 Security: 下一代防火墙 , 深度数据包检测 , 主机自省
  • Crypto Accelerations: 内联加密: IPsec TLS, 存储加密: AES-XTS, 硬件公钥加速
  • Programmability & Isolation: 功能隔离 , 安全生态系统 , 能够运行加密 & 身份验证算算发。

Q11

如何解决边缘计算平台在产线的稳定性问题?

@强哥之神 上汽云计算中心 容器云架构师及技术经理 :

边缘计算平台其实就是为了解决边缘侧业务的稳定性的,比如在边缘侧的某个节点挂了后,可以将其上的应用通过云侧控制,再次调度到与该节点相邻或同区域的另外的节点上的,甚至可以将一些核心的业务同时部署多份到本地的不同节点上,实现服务的高可用。

目前边缘计算社区,比如kubeedge等,都在积极的使用edgemesh来实现边缘侧同数据中心节点的服务高可用问题,即和云端的kube-proxy和kube-dns一样,来实现边缘侧的服务发现与负载均衡。

还有腾讯的superedge,阿里的openyurt由于都有对nodegroup的概念,所以本身就实现边缘侧的服务发现与负载均衡。

@崔晓楠 NVIDIA DevRel:

企业级应用中,在很多方面的考量都以稳定性作为第一要素,高可靠性(24*7)及业务连续性一直是企业IT中出现频率最高的词条,对于智能化的应用,NVIDIA对于系统整体的稳定性和可靠性也会有对应的解决方案,分别从GPU,嵌入式及整体系统三个方面,阐述NVIDIA在稳定性和可靠性方面的理解。

第一,GPU,分为消费类产品和企业级产品,譬如大家经常听到的2080、2080 Ti、3070、3080、3090等等Geforce系列的明星产品,都属于消费类的产品。Tesla V100、T4、A100、A30、A10、A16、RTX4000/5000/6000、RTX A4000/5000/6000等产品属于企业级产品线,他们之间有着很大的差距, 消费类产品绝大部分均采用ODM的方式,NVIDIA仅提供GPU核心的设计和芯片,ODM厂商自己完成显卡的成品设计,生产,品控,营销及保修流程,打个比喻,您手里的NVIDIA Geforce 2080Ti GPU,也许并不是NVIDIA生产的产品,一般会称为非公版(公版GPU,数量少,仅在产品推广期由NVIDIA生产制造并少量投放市场),所以NVIDIA也不会对其进行任何的技术支持,特别是在AI应用的方面,我们的工具链和技术支持更专注于企业级 GPU。

消费类GPU在产品的设计方面,主要面向广大的游戏玩家,所以在产品设计上会追求其计算峰值,这个也比较容易理解,一般复杂的3D游戏画面仅会在连续几秒钟或若干帧中出现,并不会持续到若干小时,这就要求GPU在处理图形加速的过程中可以支持到短暂的性能尖峰,整体性能的输出也会呈现波浪式的形态,为了追求这种计算尖峰,显卡会牺牲掉数据校验等额外性能开销的计算校验过程,在一个高清的一帧画面中,若干的计算数位错误对于肉眼几乎是无法识别的,为了追求高性能,消费类GPU的主频均高于企业级GPU,也带来了散热及功耗的问题,会直接影响运行的可靠性和稳定性,在GPU运行环境和驱动方面,企业级GPU会有稳定的测试,更紧密的版本迭代周期,对于企业多采用的Linux操作系统和容器环境有更好的支持,消费类GPU提供1年ODM保修,企业级GPU NVIDIA提供3年保修的政策。企业级GPU由NVIDIA提供设计到生产的整个环节,品控及稳定均要高于消费类产品,对于GPU上运行的AI应用及SDK提供全工具链可以得到NVIDIA原厂技术团队的支持。

第二,嵌入式架构未来在边缘侧的崛起,嵌入式SoC(system on chip)采用更加紧凑且低功耗的设计,在边缘侧部署灵活,同时集成了底层操作系统和驱动,对于稳定性和可靠性得到了极大的保障,支持异构计算加速能力,特别是GPU的AI能力的集成,使得在边缘侧部署智能化的应用成为可能性,随着未来Jetson ORIN系列芯片模组的推出,在边缘侧的AI算力可以轻松突破200TOPS,结合嵌入式架构的可靠稳定低功耗的特点,在工业场景的应用中,对于目前大量采用的工控机(IPC + GPU)的形态,将会是一个很好的嵌入式解决方案。譬如:一个功耗50w左右,拥有ARM CPU和高算力的GPU边缘计算单元(盒子 )将有可能完全替代现有的工控机,在制造的生产线旁,采集设备产生的数据,实时处理并分析,通过GPU高速的并行加速能力,结合NVIDIA DeepStream和TensorRT等加速推理软件,实现实时的工业缺陷检测及其他应用场景 。

第三,整体系统方面,NVIDIA的EGX企业边缘加速平台中,推出了NVIDIA认证的服务器,由于边缘GPU加速的应用相比传统的企业级应用,需要更多元化更复杂的计算能力和软件堆栈的支持,包括CPU、GPU和DPU之间的配合与优化。分布于边缘侧的计算平台,对于管理和安全性的要求会更高,要求系统具备企业级的稳定性和可靠性。NVIDIA与主流的服务器厂商进行了认证和适配工作,预先在多种配置组合的服务器中,完成了从AI,数据分析,视频分析,图形加速,数据安全等全面的测试,为客户智能化应用的落地提供了稳定可靠的基础保障。

Q12

我们都知道现在边缘计算基础层更多是用容器去部署,还有什么别的方案吗?

@崔晓楠 NVIDIA DevRel:

对于智能化应用的部署,更加推荐在裸金属上,基于容器的开发和部署方式,首先NVIDIA在NGC( ngc.nvidia.com )里面预制好各种的GPU运行环境,预训练模型,Helm脚本及SDK,便于快速的开发和部署,结合最新一代安培架构的A100、A30的MIG(多 GPU 实例),支持将一片GPU物理安全切分成多片GPU实例,同时部署运行独立不同的容器或AI应用,更加灵活的使用和调度GPU资源,且相比vGPU有更好的管理粒度和隔离的安全性。也支持在VM中去做应用的部署,可同时选择vGPU或MIG的切分方案。另外,对于应用的部署,也可以参考NVIDIA推理服务软件Triton。

https://www.nvidia.cn/deep-learning-ai/solutions/inference-platform/

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

由于边缘计算是云端功能下沉的体现,云端目前都基本是基于K8S+Docker方式实现业务容器化并部署的,所以边缘计算一般也是基于容器,因为这样才更方式的实现云端调度,边端执行。另外,如果我们抓住边缘计算的本质,就是通过分布式、高可用、业务易部署与维护,那么容器化就是一个很重要的过程,还有一种就是不好容器化的场景,可以基于Kubevirt来实现用容器来管理虚拟机,将业务部署在虚拟机中。

Q13

是否可以分享一些制造企业的GPU虚拟化应用的场景?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

目前比较常见的 GPU 使用场景,有工业设备数字孪生,工控视觉(监控、采集等)、设备质检等。

@崔晓楠 NVIDIA DevRel:

列举一些vGPU的应用场景,供参考

  • 渲染:通过裸机或虚拟工作站实例加速最终帧渲染,渲染场景所需的时间比 CPU 短很多。
  • 计算机辅助设计:利用 GPU 虚拟工作站缩短设计周期并降低单位成本,其性能与物理工作站相差无几。
  • AR/VR:借助全栈解决方案,您可以随时随地在整个 5G 网络运行和扩展 XR 应用程序,从而加速实现边缘可视化。
  • 工程模拟:通过将 NVIDIA GPU 与用于虚拟工作站上的 RTX 技术结合使用,可以在白天进行设计并在夜间进行计算,从而更快地设置,测试和迭代复杂的模拟。
  • 远程协作:借助 NVIDIA Omniverse 数字协作平台,将 RTX 功能引入第三方应用程序,从而简化 3D 制作。

Q14

GPU作为虚拟化的一部分,显存虚拟化的工作原理是什么?

【问题描述】公司最近准备上研发VDI ,与厂商交流,经常出现2Q、4Q等名词,说是相当于内存的2G或者 4G,那虚拟化的原理是什么?

@强哥之神 上汽云计算中心 容器云架构师及技术经理:

显卡虚拟化就是将显卡进行切片,并将这些显卡时间片分配给虚拟机使用的过程。由于支持显卡虚拟化的显卡一般可以根据需要切分成不同的规格的时间片,因此可以分配给多台虚拟机使用。其实现原理其实就是利用应用层接口虚拟化 (API remoting),API重定向是指在应用层进行拦截与GPU相关的应用程序编程接口(API),通过重定向(仍然使用GPU)的方式完成相应功能,再将执行结果返回应用程序。

@王永祥 NVIDIA EGX 产品总监:

在NVIDIA虚拟GPU助力的虚拟化环境中, NVIDIA虚拟GPU(vGPU)软件与Hypervisor一同安装在虚拟化层上。此软件可创建虚拟GPU,使每个虚拟机(VM) 都能共享安装 在服务器上的物理GPU。对于要求非常严苛的工作流程,单个VM可充分利用多个物理GPU。

我们的软件包含适用于各种VM的显卡或计算驱动。由于通常由CPU完成的工作分流到GPU,因而用户可以获得更出色的体验。虚拟化和云环境可支持要求苛刻的工程和创意应用程序,以及计算密集型工作负载(例如AI和数据科学)。关于2Q,4Q是针对帧缓存的说法,您可以参考我们vGPU的说明文档,里面有详细的说明。

https://docs.nvidia.com/grid/10.0/grid-vgpu-user-guide/index.htmlvirtual-gpu-types-grid

Q15

NVIDIA EGX技术方案特点有哪些?适合哪些应用场景?

@许从良 NVIDIA解决方案工程师:

  • 底层硬件基础是我们的NVIDIA-Certified Servers,它是我们的Ampere GPU或T4 + NVIDIA Mellanox SmartNIC/DPU + OEM Servers,是经过我们测试认证的具有优良性能、易管理、高安全性、高扩展性的服务器配置。在性能测试上,我们测试了pytorch、tensorflow的训练性能,推理上测试了TensorRT以及Triton Inference Server,以及Rapids、Spark和核心的一些Library如HPC SDK以及CUDA的测试,还有一些end to end的framework 如 DeepStream 、Clara、Riva 的测试,可视化上的 blender、V-ray、redshift 等测试,另外在存储上我们测试 GPUDirect Storage 性能。除了单机性能测试外,服务器配置 CX6 或 Bluefiled,测试多机之间的 RMDA 性能以及多机的 NCCL 性能以及训练性能。在安全性上,我们有针对 TPM 模块的功能测试。另外还有 redfish 管理功能测试。https://www.nvidia.com/en-us/data-center/products/certified-systemshttps://docs.nvidia.com/ngc/ngc-deploy-on-premises/nvidia-certified-systems/index.html
  • 在底层硬件基础上,我们支持baremetal的部署,或者虚拟化方式的部署,支持vGPU。这里hypervisior可以使用VMware vSphere、Redhat OpenShift, 或者其他的partner的虚拟化方案。
  • 在这基础上的应用层,就可以基于我们NGC上的大量的容器镜像,预训练模型以及end-to-end的方案。
  • 还有就是NVIDIA AI Enterprise,它是端到端的,cloud-native的AI和数据分析套件,它经过我们优化、认证,通过VMware vSphere with Tanzu运行在NVIDIA-certificated服务器上。它包括NVIDIA用于在现代混合云中快速部署、管理和扩展人工负载的一些关键技术,如magnum IO、DOCA、CUDA-x、GPU operator、Network Operator。在上层应用上,也是基于我们NGC上的一系列容器镜像和解决方案。https://www.nvidia.com/en-us/data-center/products/ai-enterprise-suite

对于边缘设备的管理,我们有Fleet Command,Fleet Command是一款混合云平台,可以跨数十台到最多数百万台服务器、以及对边缘设备进行管理和扩展AI部署,在云端运行的集中控制界面,精简的配置,详细的监控仪表板,以及大量的自动化流程。使用一键式配置,Fleet Command可以轻松地与NVIDIA EGX™服务器配对。一旦配对成功,Fleet Command就可以很方便的在边缘设备上部署OS ,部分AI应用程序,支持远程管理边缘设备,支持远程软件更新、远程调试和系统监控,以及其他功能,如自愈系统,负载迁移。这些远程管理功能使维护和维护变得更容易。Fleet Command内置端到端的安全性,确保知识产权、应用程序和传感器数据始终受到保护。它从应用程序开始。应用程序在加载之前会被扫描漏洞和恶意软件。此外,签名容器确保只有经过身份验证的软件被部署到边缘。

https://www.nvidia.com/en-us/data-center/products/fleet-command

@王永祥 NVIDIA EGX 产品总监:

许从良的回复非常全面,咱们再换一个维度来看EGX的几个特点:

统一的架构

  • 单一架构能够在多种工作负载中加速现代应用程序。
  • NVIDIA和合作伙伴提供广泛的服务器产品系列,适用于从数据中心到边缘等各种部署场景。客户可以选择适合其用例的产品。

全栈创新

  • 该平台不断进行全面优化,并持续提升性能,更大限度提高投资回报率。
  • 与传统设计相比,基于此平台的解决方案可提高电源和空间效率,且完成同样的工作所需的系统更少,这样便能降低TCO 。

可扩展性与安全性

  • 高性能且高效的网络架构使基础设施能够快速有效地进行横向扩展,同时提供创新功能,更大限度提高安全性。
  • GPU虚拟化软件使多台虚拟机能够共享一个GPU,或者对于要求更高的工作负载,可以将多个GPU配置到一台虚拟机,确保宝贵的GPU资源得到优化。
  • 部分GPU型号提供的多实例GPU(MIG)可以将一个GPU割成多个独立的GPU实例。它让基础设施管理员能够实现GPU加速基础设施的标准化,同时灵活地确保在所有计算工作负载中合理运用GPU资源。

庞大的应用程序基础

  • 庞大且不断增长的应用程序意味着,投资此平台将带来持续的回报。数百种商业应用程序已通过NVIDIA技术加速,而且每年还在不断增加。
  • 开发者可以通过框架、优化库、SDK、集成的编译器、预训练模型、推理优化器和其他软件快速提高工作效率。这些都得到了由200多万名开发者组成的庞大生态系统的支持。

基础设施平台生态系统

  • 该平台与业内领先的国内的主流OEM厂商的IT基础设施平台和VMware、Red Hat 以及标准的DevOps框架(如Kubernetes等)完全集成,使IT部门能进行全方位控制。

Q16

EGX解决方案现在有没有成熟的配套软件应用环境可以用于汽车研产供销领域?

【问题描述】基于视觉的解决方案,在整车研产供销领域,是否有比较成熟的应用产品?在软件定义汽车的大环境下,是否有整体的解决方案供车企来进行选择?

@王永祥 NVIDIA EGX 产品总监:

我们在汽车制造业,可以从设计、生产制造到销售、服务环节利用边缘计算加速行业智能化。从计算机辅助设计、渲染、工程模拟,到生产制造阶段工业检测、机器人/AGV/UGV的应用、物流环节加速到销售时的数据分析均可在边缘计算平台展开。

目前我们有以下成熟软件应用可以使用:

  • 我们使用基于EGX Ominverse平台对自动驾驶的DriveSim的支持,将加速自动驾驶仿真和协作的能力。自动驾驶仿真测试平台是NVIDIA整体自动驾驶产品Drive产品技术体系的关键组成部分,可使汽车在虚拟世界中驾驶数十亿公里,模拟数千种历经从常规行驶到罕见危险情境的广泛驾驶场景,该平台可帮助汽车企业实现更高效率、更大成本收益以及更安全的驾驶体验,大幅缩短自动驾驶行车测试周期;
  • 我们基于EGX在vGPU的支持完成VDI、VApp等对设计、渲染的支持;
  • 我们使用基于EGX平台中的NGC中的预训练模型加速汽车各个环节中对模型的需求。如自动驾驶阶段、车内娱乐、车路协同、售后服务等场景。