首页云计算 正文

选择GPU服务器的本原则

2025-01-03 3 0条评论

GPU擅长处理大规模深度合作学习能力训练方法以及其他部分典型HPC任务。经常有朋友在咨询公司如何有效配置可以用于深度学习或计算加速的GPU服务器,今天就与大家分享一下选择GPU服务器的基本理论原则。

       一、常见GPU服务器分类

       首先介绍下常见的GPU和GPU服务器。以NVIDIA Tesla系列GPU为例,按总线数据接口不同类型企业可以发展分为NV-Link接口技术以及国内传统PCI-e总线进行两种。

       1、Nv-link 接口类型的 gpu:典型的代表是NVIDIA V100,使用SXM2接口,DGX-2的接口SXM3。

       2、NV-Link总线技术标准的GPU服务器

       DGX是由NVIDIA设计的超级计算机的典型代表。 DGX超级计算机不仅提供硬件,以及相关的软件和服务。

       3、传统PCI-e总线数据接口的GPU

       NVIDIA特斯拉GPU加速对主流专业计算主要是:P4 / P40(P指的是前一代PASCAL架构的开头),P100,V100和图灵架构特斯拉T4那些段落。且其中只有薄薄槽P4和T4,常用推理,现在有成熟的识别模型和推理。

       4、传统的 pci-e 总线 gpu 服务器分为两类:

       (1)OEM服务器:通过NVIDIA官方的测试和制造商的认证。比如,广泛的技术不仅NVIDIA的合作伙伴,已成为公司加快NVIDIA潜在的AI计划成员;

       (2)非OEM服务器,也包括企业很多不同种类

       选择的基本原则:选择GPU服务器时首先要进行考虑企业业务发展需求来选择一个适合的GPU型号。在HPC高性能数据计算中还需我们要根据不同精度来选择,比如他们有的高性能计算方法需要双精度,这时如果可以使用P40或者P4就不合适,只能通过使用V100或者P100,同时也会对显存容量有要求,比如石油或石化勘探类的计算技术应用对显存要求比较高,还有些对总线控制标准有要求,因此本文选择GPU型号要先看业务市场需求。

       GPU服务器人工智能领域应用也较多。GPU虚拟化在场景中要求更高。根据数量,需要将GPU服务器虚拟出30或60个虚拟GPU,因此批量培训需要GPU,通常使用V100进行GPU培训。模型训练需要推理,所以推理一般采用P4或T4,少数情况为V100。。

       当选择 gpu 模型时,请考虑使用哪种 gpu 服务器。 这里有一些事情需要考虑:

       1、在服务器需要根据对应于服务器或T4 P4等的量来选择,同时考虑到服务器使用场景中,如卡口,卡口固定件或类似安全,当在推理中央完成可能需要V100服务器,你需要考虑吞吐量和使用场景和数量。

       2、需要进行考虑企业客户信息本身可以使用这些人群和IT运维能力,对于BAT这类大公司来说,他们通过自己的运营管理能力比较强,这时会选择一个通用的PCI-e服务器;而对于一些IT运维能力不那么强的客户,他们更关注国内数字经济以及相关数据标注等,这类人为研究数据科学家,选择GPU服务器的标准也会有所了解不同。

       3、需要考虑的配套软件和服务的价值。

       4、要考虑企业整体GPU集群管理系统的成熟发展程度以及信息工程技术效率,选择有非常成熟的从底端的操作进行系统驱动Docker到其他部分都是通过优化过的服务器,这时效率就比较高。

       专业的学习解决方案AI深入研究加快

       总之,除了分类,性能指标,如准确性,内存类型,内存容量,和功耗应考虑在选择服务器时,还将有一些服务器,需要水冷却,降低噪音或有特殊要求的温度,移动性等,需要特殊的定制服务器。

文章来源:http://www.idcredian.com/h21.html

文章版权及转载声明

本文作者:admin 网址:http://news.edns.com/post/290157.html 发布于 2025-01-03
文章转载或复制请以超链接形式并注明出处。

取消
微信二维码
微信二维码
支付宝二维码