您现在的位置:首页 > 智谱AI联合焱融打造A100+全闪存储的大规模AI架构
智谱AI联合焱融打造A100+全闪存储的大规模AI架构
在今年的北京冬奥会上我们见证了人工智能技术的先进性,现场应用涉及人工智能技术的方方面面,包含技术层的计算机视觉、语音识别、自然语言处理、机器学习、大数据管理、智能云等。为防止疫情传播,无人化服务的全场景应用也是冬奥会的一大亮点。现场使用了大量的机器人和虚拟数字人来避免人员的接触,极大提升了疫情防控效率。可以看到人工智能技术将实现从感知智能到认知智能的新突破,通往通用人工智能越来越成为人工智能领域的专家和学者探索和研究的方向。
目前,多模态人工智能作为一种新的人工智能范式,已经在试图“复制”人类在日常生活中的各类场景,尽可能把人类的感知信息进行分析处理,实现更全面综合的理解,将“数据”和“知识”关联并给出相应的回应。德国汉堡科学院院士张建伟认为人机交互的未来是多模态共享模式;计算机视觉领域专家贾佳亚教授则在多场演讲中提出「多模态是人工智能的未来」。
多模态 AI 场景的数据来源维度众多,数据特征复杂,应用广泛,数据量庞大。智谱 AI 作为多模态技术的代表,其数据规模通常可达到数十亿乃至百亿,涉及到 29 亿参数通用中文预训练模型、40 亿参数通用文图预训练模型、80 亿参数通用图文预训练模型、100 亿参数通用英文预训练模型。这些海量数据主要用于支撑 AI 产品的“智力”提升,投入到训练中的数据量越大,AI 智能的准确度就越高。企业的长期发展需要稳定的数据存储平台,而存储的读写性能又决定了上层应用的性能和用户体验。
关于多模态 AI 场景下的存储建设目标,焱融科技认为海量数据管理和高性能输出已成为刚需。总结来说就是以下 3 点:
海量多维度数据存储能力(结构化、非结构化);
百亿级数据量下的高性能支撑,高性能带来高效率,促进多模态 AI 快速迭代;
支持高速 RDMA 传输协议的 InfiniBand 网络,实现高 IOPS、低延迟和稳定的数据访问性能。
全闪存储架构的选择
01 为什么选择全闪存储架构?
在智谱AI 业务发展的需求中,当构建百亿级别的模型时,算力、网络、存储这三要素共同决定了模型最终的成熟度和产品先进性。通常情况下,算力依靠堆积 GPU 数量即可解决,而算力全面发挥的条件是网络和存储的能力要与算力保持一致,可提供高效的数据流转能力和存储供给能力。
目前 IT 建设中高性能数据中心已经实现高速网络的全面普及,例如:200Gb InfiniBand 已经成为 HPC 计算/存储的首选网络技术,并开始向更先进的 400Gb 网络技术迭代,那么存储系统就成为决定业务发展快慢的关键因素。存储的选择需要贴合业务要求,此次存储建设目标不但需要满足业务层百亿文件存储,还需要满足模型全流程生产要求。即从数据分类、模型训练、仿真等环节考虑,存储必须满足不同类别文件的高性能响应,其中在训练和仿真环节尤其重要,关乎产品迭代速度以及扑向市场服务客户的体验。
智谱AI 作为 AI 行业的领先企业,目前已取得多项国际领先的 AI 技术突破,在超大规模智能模型训练技术体系中占据领先地位,在选型存储时最为关注以下几点:
百亿级别数据读写性能与元数据操作性能,在业务中,频繁操作数据,形成规模效应,存储性能需要保证稳定性;
业务数据包含大量的文本文件、视频文件、音频文件等多维度数据,存储作为数据的载体需要非常高的 IOPS 能力,普通机械硬盘性能不超过 200 IOPS。如果支持百亿级数据业务模型,那么需要大量的磁盘用于存储,显然这样的硬件选型是不合理的。目前业界主流高性能硬件已经普及全闪的 NVMe SSD,单盘 IOPS 即可达到数万。
在模型运算中,不仅仅存储需要高 IOPS,还要同时兼容高性能网络,将存储能力通过网络供给到计算层,完成数据的流转。
基于以上三点业务需求分析,智谱AI 认为全闪存储架构是其业务的最佳选择。
02 为什么选择焱融全闪文件存储?
焱融科技深入研究智谱AI 的业务模型,此次储解决方案立足多模态 AI 场景,适配百亿级数据规模,向计算集群提供高性能低时延的存储服务能力。焱融科技使用 YRCloudFile 全闪文件存储一体机 F8000X 用于海量数据存储,YRCloudFile F8000X 集群中单节点可提供 200万 IOPS 和 40GBps 带宽,支持 RDMA 协议,实现存储高性能支撑,使 IaaS 层全面提升性能,为 AI 业务夯实基础能力。
在 AI 全业务流程内,数据需要经历的预处理、训练、仿真等过程,焱融科技全闪文件存储 F8000X 根据不同业务阶段的特点,调用不同的存储服务能力,满足各个阶段业务对数据服务能力的要求。在业务全过程中,数据始终处于 YRCloudFile 的全生命周期管理中,相比传统存储的分离架构,数据流转成本大大降低,业务连续性得到保障。
多模态 AI 数据来源维度众多,在性能优化层面较难,YRCloudFile 采用分布式并行架构,采用元数据路径分离技术,让百亿级混合文件(大文件和小文件并存场景)数据读写和元数据查询性能稳定,并且可线性扩展,满足智谱AI 多个产品项目的业务性能需求,快速提升“虚拟数字人”的迭代能力。
全闪存储成为未来存储主流趋势
随着数字经济成为全球经济发展的主旋律,数据要素的重要性将不断提升,在云、大数据、人工智能等新技术驱动下,全行业新应用数据出现爆发式增长,为全闪存储和分布式存储高速发展带来更多机遇。2021 年 Q4,Gartner 在全球存储市场报告数据显示,全球全闪存储市场规模同比增长 13.9%,硬盘驱动器和混闪存储下降 14.2%,全闪存储在全球存储市场占比首次超过 50%。近期,美国上市全闪存厂商 Pure Storage 发布的 2022Q2 财报显示,其全闪阵列系列产品的营收在本季度继续保持了强劲的增长,增长率超过 30%,且于上季度已实现了继上市以来的首次盈利。在一些发达国家,全闪存应用比例普遍高于 55 %。
那么,在看看国内的全闪存储市场概况, 2022 年 Q1 IDC 中国企业级存储市场跟踪报告中,数据显示全闪存阵列同比增长 27.3%,而传统机械硬盘 HDD 则出现负增长,国内全闪存势头紧追国外。市面上固态硬盘 SSD 价格几乎接近于传统硬盘 HDD 的价格,一套全闪存存储性能相当于数几十套传统 HDD 存储总和。未来可预见 SSD 势必将逐步取代最优化性能的 HDD,或成为服务器与存储系统的主要存储装置。
IDC 发布 2022年 Q1 中国企业级存储市场跟踪报告
市场上主流的全闪存储产品形态大多是提供块存储服务,而针对需要分布式文件存储高性能场景的全闪存储产品却少有。焱融科技在分布式文件存储领域拥有先进的技术,其核心技术优势率先支持 400Gbps InfiniBand 网络,打造 AI 时代 GPU 计算的高性能存储。焱融全闪文件存储 F8000X 其性能优势可实现单个存储节点达到 40GB/s 带宽、200 万以上 IOPS。由于采用的是分布式存储架构,性能可以通过增加节点的方式实现线性提升,其性能水平比肩国外知名全闪厂商,价格更胜出一筹,这也是焱融科技在众多国外全闪存储厂商中脱颖而出的原因。