艾瑞网

搜索
登录登录用户注册

搜索历史

热搜词

互联网

联想详解AI导向基础设施 “软硬一体”赋能四大场景

来源：互联网作者： 2023年09月27日 17:53

导语：

9月25日，联想在杭州举办以“全栈智能全程陪伴”为主题的新IT思享会，集中展示了联想基于新IT架构的全栈智能产品与服务，引领行业智能变革的强大实力。

当前，以ChatGPT为代表的AI模型席卷全球，不仅实现了AI技术质变性突破，还推动AI应用与产业融合，加速AI落地千行百业。

在此背景下，联想中国区基础设施事业部架构师耿太平在会上，重点详细解读了联想AI算力战略，以及具体落地实践。他表示：“在实际业务实践中，联想AI导向的基础设施聚焦大模型训练、训推一体、AI For Science和AI生成四大AI应用场景，提供软硬件整体方案来落地联想AI算力战略。”

（联想中国区基础设施事业部架构师耿太平）

锚定AI算力，聚焦四大场景打造AI导向基础设施

全球人工智能发展汹涌澎湃，算力规模不断攀升。截止2021年，中国的算力规模达到203EFLOPS，仅次于美国位居世界第二，年增长率为53%，高于全球平均的增长率10个百分点。会上，耿太平表示，目前AI算力规模已经超过通用算力，未来预计到2026年，仅中国的AI算力规模就会达到1271.4 EFLOPS，年复合增长率达52.3%，AI算力成为算力发展的主要方向。

面对日益增长的AI算力需求，联想在今年8月，正式发布AI算力战略，全面打造以AI为导向的算力基础设施。耿太平介绍道，联想AI算力战略具备AI赋智和绿色赋能两大特征。其中，AI赋智为，100%算力基础设施产品支持AI，50% 基础设施研发投入在AI领域，全面AI技术覆盖全域AI应用；绿色赋能是指，全面布局和引领液冷技术，打造液冷集群方案灯塔，以绿色算力基础设施助推智算产业可持续发展。

（联想全面打造AI导向的基础设施）

AI算力战略引导下，耿太平分享称，在实际的业务实践中，联想推出了AI算力全栈全域框架，聚焦四大应用场景，提供软硬件的整体方案来推动AI战略不断落地。具体来看，联想不仅提供丰富的AI算力所需的基础设施，还通过整合不同算力需求的AI软件平台，高效覆盖大模型训练、训推一体、AI for Science和AI生成四大应用场景，从而更好地赋能AI行业生态。

耿太平进一步阐述道：“AI大模型训练服务器和AI训推一体服务器+Lenovo AI Master软件的方案，可以覆盖大模型训练和训推一体场景的应用；科学计算异构服务器+LiCO软件的组合，可以覆盖AI for Science场景的应用；AI生成服务器+NVIDIA OVE软件的组合，可以覆盖AI生成场景的应用。”

截至目前，联想已成为全球第三大AI基础设施和服务器供应商，全面覆盖云端、边缘算力场景，同时满足AI大模型和传统模型的训练、推理需求，并实现AI应用场景的深度覆盖，目前已实现智慧制造、智慧医疗、地质勘探等领域的应用。

澎湃算力，构筑坚实AI基础设施底座

AI通用大模型以燎原之势席卷全球，带动算力需求和参数量呈指数级增长，构建满足其发展的AI算力最为紧迫。

第一大场景是AI大模型训练。会上，耿太平分析称，Open AI最新GPT-4模型算力需求是GPT-3的59倍，模型参数量是GPT-3的10倍以上。为满足大规模数据训练需求，AI算力基础设施需具备纵向高性能扩展和横向灵活扩展能力。联想在今年8月推出的联想问天WA7780 G3 AI大模型训练服务器很好的满足了这一需求，具有澎湃性能巨幅提升、灵活架构按需配比和扩展不同算力等特点。

（联想问天 WA7780 G3 AI大模型训练服务器）

性能方面，该服务器可提供32PFLOPS的AI算力，支持高达400Gb/s的高性能网络，拥有高达640GB的HBM3高速显存。由于搭载的H800GPU相较上一代的GPU AI性能有高达3.44倍的提升，同时升级了第4代Tensor Core和 Transformer的引擎，使得大模型AI训练提升9倍，大模型AI推理性能提升30倍。灵活架构方面，该服务器通过采用了GPU Direct Storage (GDS) 技术，让GPU与NVMe直接进行数据的通讯，同时实现GPU与NVMe 灵活配比（1:1或2:1），大幅提高程序载入数据的速度，提升大模型训练的性能。

第二大场景是训推一体场景。为应对大模型推理和传统训练以及云游戏、模拟仿真等多元算力需求，联想问天WA5480 G3 AI 训推一体服务器可支持业界主流的PCle规格的AI加速卡，可以按照场景要求模块化配置GPU算力。该服务器还支持丰富生态，通过对系统拓扑和结构的兼容性设计以及软件的调优，可支持Intel、寒武纪、摩尔等多元AI芯片。此外，该服务器安全可靠，通过N+N冗余的电源设计和动态的软件监控，可确保无间断运行和稳定的性能。

可以看出，联想问天WA7780 G3 AI大模型训练服务器和WA5480 G3 AI 训推一体服务器专为AI大模型而生，满足AI大模型所需的数据训练和推理需求。耿太平还表示，两款服务器在保证高性能的同时实现了低功耗运行。其中，联想问天WA7780 G3 AI大模型训练服务器通过创新三层独立风道设计，根据不同的部件，散热特征进行优化，可以节省散热功耗1000瓦。

绿色算力，加速AI技术高效利用

除了AI大模型蓬勃发展， AI技术与产业融合带动AI应用不断落地掀起产业智能化变革。联想不仅聚焦通用人工智能领域，还看重AI与产业深度融合，致力于为行业智能化变革打造算力“新基建”。

第三大场景是AI for Science，科学计算和AI在加速融合。一方面AI算法科学应用实现了创新发展。如在气象领域，ForecastNet模型可将气象预测的速度提升4.5万倍。在生命科学领域，Alpha Fold2可以帮助科学家精准预测蛋白质的结构。另一方面，针对计算密集型应用，原来在CPU上的科学算法在不断向异构计算进行迁移，如材料科学领域的VASP和冷冻电镜RELION，因此当前科学计算算力基础设施既需要满足传统的科学计算，又需要兼顾日益增长的AI需求。

基于此，联想推出了科学异构计算服务器——联想Think System SD650-I V3。这款服务器可实现异构多元，CPU和GPU的比例是1:2，可以进行最佳的异构计算。此外，GPU的双精度算力单节点额可达到210TFLOPS，GPU之间可通过XeLink进行高速互联。该服务器还具有极致高密和绿色节能的特点：42U整机柜可以支持多达144颗GPU，提供7.5PFLOPS的双精度算力； PUE小于1.1, 全水冷设计，零噪音，可支持余热回收。

（联想Think System SD650-I V3）

最后一个是AI生成场景，即 AI生成技术与各行各业深度结合，在未来数字工厂、数字孪生地球、火势蔓延模拟、5G信号模拟等虚拟应用场景加速落地，不断刷新AI创新行业的想象力。而这些应用背后都需要强大的AI算力支持，逼真且低延迟的渲染能力、整合离散的设计工具和协同多人在线实时工作能力等。

联想在这些领域进行了领先布局，推出了AI生成OVX基础设施方案。该方案包含高速全闪存储（DSS-G）用于存放海量的数据、国内首款OVX3.0认证的AI生成服务器，OVX SR675 V3，搭载英伟达 Omniverse Enterprise软件一起来提供AI+渲染能力，同时可实现多种软件工具和多人多地的在线实时协作，还包含高速的交换机，为纵向和横向的扩展部署提供便利。