“烧钱”的大模型,如何迈过存储这道坎?

发布时间:2023-08-31 12:05:57     来源:凤凰网

几乎每一个行业都在讨论大模型,每一个行业巨头都在训练大模型,人工智能已然进入了大模型主导的时代。

想要占领大模型应用的高地,数据和算力可以说是不可或缺的基石。和算力相关的讨论已经有很多,以至于英伟达的市值在2023年翻了两番。同样不应小觑的还有数据,除了数据量的爆炸性增长,数据的读取、写入、传输等基础性能,开始遇到越来越多的新挑战。

01 “榨干”算力必须迈过的一道坎


【资料图】

在许多人的认知里,训练大模型是一门烧钱的生意。坊间传闻,GPT-4的训练成本高达10亿美元,想要让大模型释放出应有的“魔法”,“涌现”出对答如流的能力,需要一只“独角兽”的前期投入。

再具体一些的话,大模型训练的成本构成中,硬件投资包括算力、运力、存力,其中算力相关硬件投资占比80%。毕竟一颗80GB的A100芯片在国外的定价就高达1.5万美元左右,一个千亿级参数的大模型,往往需要上万颗A100的算力。可在现实的训练过程中,GPU的平均利用率却不足50%,制约因素包括大模型参数需要频繁调优、训练中断后恢复周期长、数据加载速度慢等等。

不客气的说,算力资源闲置的每一分钟都是在燃烧经费,倘若可以进一步提高算力资源的利用率,等于间接降低了大模型的训练成本。要提到算力利用率,必须要迈过的一道坎就是数据读写性能的挑战。

大模型在训练过程中,需要先读取一块数据,在数据读取完成后进行训练,训练过程中会读取下一块数据。如果训练结束时下一块数据没有读取完成,就会造成一定的等待时间。再加上网络波动、算力故障导致的训练中断,即Checkpoint时刻,重启训练会退回到前一个节点,同样会产生算力空置的等待时间。

不那么乐观的是,目前的训练数据通常以图片、文档等小文件的形式存在,意味着在训练过程中需要频繁地读取和写入数据,并且需要支持快速地随机访问。何况大模型训练的原始数据集动辄几十个TB,当前文件系统的小文件加载速度不足100MB/s,无形中限制了整个系统的运转效率。

根据第一性原理,大模型训练时算力利用率低的诱因是海量的小文件,传统存储系统无法高效地处理这些数据,导致加载速度缓慢。大模型训练的效率要达到极致,减少不必要的浪费,必须在数据上下功夫,准确地说,必须要在数据存储性能上进行创新。

而华为在高性能NAS存储上深耕多年,其OceanStor Dorado全闪存NAS拥有业界领先性能,尤其在海量小文件场景,性能做到了领先业界30%。

在openEuler开发者大会2023上,华为还携手openEuler发布了NFS+协议,矛头直指客户端访问OceanStor Dorado NAS的性能,试图通过引入外置高性能并行文件存储系统,缩短大模型训练中的等待时间,尽可能把算力的价值“榨”出来。

02 华为NFS+协议带来的“屠龙术”

揭开华为NFS+协议的“面纱”前,似乎有必要回顾下NFS协议的历史。作为Sun公司在1984年开发的分布式文件系统协议,NFS已经存在了近40年,广泛应用于金融、EDA仿真、话单、票据影像等行业。

只是在时间的推移下,“老将”NFS逐渐暴露出了一些短板。比如传统NFS单个挂载点仅指定一个服务端IP地址,在网口故障或者链路故障场景下,可能出现挂载点无法访问的情况;一端故障时IP无法感知时,仅依靠应用层手动挂载文件系统,双活链路无法自动切换;单个挂载点性能受限于单个物理链路性能,重要业务存在性能瓶颈。

大约在两年前,华为开始了NFS+协议的研发,着力解决传统NFS的不足,最终交出了一份“高可靠高可用”的答卷:

一是可靠性。打个比方的话,传统NFS的客户端和服务端之间仅有一条路,NFS+协议允许单个NFS挂载点使用多个IP进行访问,等于在客户端和服务端之间修了多条路,巧妙解决了传统NFS被诟病的“可靠性”问题。

二是多链路聚合。客户端和服务端之间仅有一条路时,一旦出现事故就会导致交通拥堵;而NFS+协议在选路算法的加持下,实现了单个挂载点在多条链路上均衡下发IO,确保服务端和客户端的数据传输畅通无阻。

三是缓存加速。大模型训练时,需要将元数据缓存到计算节点。传统NFS相对保守,缓存过期的时间比较短。而NFS+协议改善了缓存大小和失效机制,可以让元数据更多、更长时间保存在主机侧,以满足大模型训练的高时延需求。

四是数据视图同步。正如前面所提到的,大模型训练需要快速的随机访问,NFS+协议采用了数据视图同步的方式,大模型训练需要读取某个节点的数据时,直接与对应节点高效地放置和访问数据,找到最优的访问链路。

做一个总结的话,NFS+协议采用了高性能并行文件存储系统的设计,针对海量小文件场景进行了特殊优化,比如多链路聚合、缓存加速、数据视图同步等,均在提升海量小文件的读写性能,最终在大模型训练过程中实现“读写快、少等待”,减少算力的空置时间。

一组Client测试数据印证了NFS+协议的路线正确:相较于传统的文件存储,训练样本小IO随机读性能提升了4倍以上,CheckPoint大文件切片+多路径传输提升了4-6倍的带宽能力,足以满足大模型训练的苛刻要求。

03 数据存储进入到“大模型时代”

某种程度上说,大模型训练催生的数据存储性能要求,不过是文件存储系统加速演变的一个侧面。

直到今天,文件存储的需求仍在不断更新,文件系统的创新也在持续发生,就像大模型训练需求所折射出的演进方向。

要知道,英伟达的一个训练节点,每秒就可以处理2万张图片,每个节点需要8万IOPS,大模型典型配置有是千亿参数千卡,单位时间内对海量小文件的读写频率要求极高。

这恐怕也是华为和openEuler联合发布NFS+协议的原因,市场对于文件系统的创新需求骤然加快,势必会引发头部科技企业围绕数据存储的“军备竞赛”,华为无疑是这场竞赛中冲在最前面的玩家之一。

但对文件存储系统的市场格局稍作了解的话,华为自研NFS+协议,还隐藏着另一重深意。

一方面,Lustre、GFPS、BeeGFS等并行系统的MDS方案,将元数据和文件数据访问分开,仍存在性能和可靠性的瓶颈;而NFS+协议的元数据不再聚焦于某个性能节点,而是分配到集群的所有节点里面,可以在主机侧实现多连接,消除了大模型语境下高频处理小文件的底层瓶颈。

另一方面,站在大多数用户的角度上,NFS+协议可以更好的兼容已有的使用习惯,原先建立在传统NFS上的运维机制和知识体系不作废,文件系统的切换过程更平缓,不用修改操作系统数据面,即可让NAS存储访问性能提升6倍、可靠性提升3倍,以极低的成本拥抱大模型训推浪潮。

无可否认的是,大模型正在从前台的“火热”,转向整个产业链条的协同驱动,数据存储正是其中的关键一环。

在这样的趋势下,行业注意力将从“炼模”一步步转向更高效、更快速的“炼模”,海量小文件的采集和加载性能、算力资源的利用率等指标,将被越来越多的企业所关注,势必会掀起一场化繁为简的文件存储革命。

标签:

精彩推送

对话柠季创始合伙人汪洁:混乱与效率、野心与克制

来源 新腕儿撰文 怜舟从投资人到亲自下场做饮品连锁,汪洁沉淀多年的调

2023-08-31

西部证券(002673):8月31日技术指标出现观望信号-“黑三兵”

摘要:2023年08月31日西部证券(002673)主力资金净流出46 25万元,占

2023-08-31

海水变黑!辽宁营口海域发现浒苔:已到季节结束期

近日,辽宁营口鲅鱼圈区海域出现海水变黑的情况,引发广泛关注。据视频

2023-08-31

豫论场丨调降存量房贷利率是大势所趋

“受预期和政策调整等多方面因素影响,房地产市场进入调整周期,个人房

2023-08-31

“提前还房贷”涉及的法律风险

武丹 制图记者|汤瑜责编|张晶通讯员|王方玲正文共2044个字,预计阅读需

2023-08-31

2023年1盎司生肖彩银币价格(2023年08月31日)

金投白银网提供2023年1盎司生肖彩银币价格(2023年08月31日),一盎司

“烧钱”的大模型,如何迈过存储这道坎?

几乎每一个行业都在讨论大模型,每一个行业巨头都在训练大模型,人工智

四川苍溪:齐心协力战高温 攻克难关保供水

秋时,骄阳仍似火。在这样的高温下,四川省广元市苍溪县乡镇供水有限公

深圳官宣!执行认房不认贷政策,重磅利好,不要贱卖自己的房产!

深圳官宣!执行认房不认贷政策,重磅利好,不要贱卖自己的房产!,楼市,

地产政策密集下放,为何地产板块还领跌?

地产政策密集下放,为何地产板块还领跌?,领跌,房地产,净利率,保利地产

深圳龙华区第4批旧改计划发布 6片区域拟拆除面积51.11万平方米

深圳龙华区第4批旧改计划发布6片区域拟拆除面积51 11万平方米,住宅区,

台风“苏拉”明日或登陆广东,局地有大暴雨

今天(8月31日),今年第9号台风“苏拉”继续逼近广东沿海。受其影响,

凌云B股8月31日快速反弹

以下是凌云B股在北京时间8月31日11:10分盘口异动快照:  8

“好房子”主题论坛举办 探索绿色人居创新发展之路

“好房子”主题论坛举办探索绿色人居创新发展之路,住宅,户型,好房子,保

德阳市市场监管局积极开展 “万人进万企服务促发展”活动

为扎实做好助企纾困工作,切实了解解决互联网经营主体所需所盼,近日,

宝鹰股份:8月30日融资买入207.49万元,融资融券余额3.01亿元

8月30日,宝鹰股份(002047)融资买入207 49万元,融资偿还286 98万元

对话柠季创始合伙人汪洁:混乱与效率、野心与克制

来源 新腕儿撰文 怜舟从投资人到亲自下场做饮品连锁,汪洁沉淀多年的调

今晚6点,公共安全教育开学第一课开播,精彩内容抢先看→

《公共安全教育开学第一课》(第12季)2023年秋季学期开学在即,《公共

海南持续推进环境空气质量改善200天决战攻坚行动 全力争取实现今年空气质量改善目标

8月29日一早,屯昌天之虹生态农牧有限公司(以下简称天之虹公司)厂区

海伦市人民法院召开落实省法院诉源治理工作推进会

黑龙江经济网讯(王全友于占涛记者马朝林)为了深入贯彻落实省高院关于

2023年全省“质量月”活动启动

本报讯(记者付宇)29日,黑龙江省全面质量管理经验交流暨2023年“质量

新博会·进行时 | 新材料领域成果路演对接大会举行

本报讯(见习记者周姿杉)29日,黑龙江省“汇智龙江”成果路演对接活动

首届新材料技术与创新应用国际论坛举办

本报30日讯(见习记者王阳阳)30日,首届新材料技术与创新应用国际论坛

深圳官宣:执行认房不认贷

深圳官宣:执行认房不认贷,商品房,改善性,深圳市,商品住房,个人住房贷款

凡是食品公司启动食品安全应急机制召回不合格产品

近日,广东省市场监管局发布了2023年第20期食品安全通告。通告显示:广

曝《热力纳斯卡》开发商能拿200万:开发者曾警告起诉

两名《热力纳斯卡》开发商MotorsportGames的员工近日在一项关于公司拖

王鹤棣个人资料简历 简介(王鹤棣个人详细资料)

今天锅盖头来为大家解答以上问题,王鹤棣个人资料简历简介,王鹤棣个人

注意!这项补贴,淄博高新区已发放到位

注意!这项补贴,淄博高新区已发放到位,淄博,高新区,金融局,住房保障,

广州“认房不认贷” 银行开始执行,房企备战“金九银十”

广州“认房不认贷”银行开始执行,房企备战“金九银十”,认贷,广州市,

最新半年报出炉 创金合信文娱媒体股票发起A持仓曝光!加仓减仓这些股…

最新半年报创金合信文娱媒体股票发起A持仓曝光!加仓减仓这些股…

西部证券(002673):8月31日技术指标出现观望信号-“黑三兵”

摘要:2023年08月31日西部证券(002673)主力资金净流出46 25万元,占

雄安新区中关村科技园揭牌

原标题:雄安新区中关村科技园揭牌中国青年报北京8月30日电(中青报·

濮存昕领衔 莎翁话剧《暴风雨》9月将演出

9月9日,国家大剧院制作莎士比亚话剧《暴风雨》将迎来第二轮演出,并为

塔河林业局盘古林场党委开展反诈骗主题党日活动

黑龙江经济网讯(李海礁单宝敏记者马朝林)近日,为提升全民反诈、防诈

新林林业局多力同发抓实“中元节”期间森林防火工作

黑龙江经济网讯(汤金龙赵文财记者马朝林)近期,新林林业局多力同发抓

前7个月全国社会物流总额同比增长4.7% 延续平稳恢复势头

8月30日,中国物流与采购联合会发布数据显示,前7个月,全国社会物流总

五大连池市交警大队组织驾校学员开展“礼让斑马线”文明交通宣传劝导活动

黑龙江经济网讯(李宝刘昌龙记者梁新立)8月28日,五大连池市交警大队

民生银行半年报显示:业绩降幅持续收窄 业务结构不断优化

8月30日晚,民生银行发布2023年半年报显示,上半年实现营业收入715 39亿元、同比下降3 58%,实现净利润237 77亿元、同比下降3 49%,降幅分

中国已有4镇GDP过千亿,还有这些后备军,这都是中国的实力

中国已有4镇GDP过千亿,还有这些后备军,这都是中国的实力,广东,佛山,

海水变黑!辽宁营口海域发现浒苔:已到季节结束期

近日,辽宁营口鲅鱼圈区海域出现海水变黑的情况,引发广泛关注。据视频

成都车展上,坦克500 Hi4-T高调亮相吸足眼球

8月25日的成都国际车展上,坦克500 Hi4-T高调亮相,以豪华越野新能

中联重科:H1海外营收占比超1/3 再推员工持股计划 今年净利增速不低于40%|财报解读

财联社8月31日讯(记者黄路)中联重科(000157 SZ)凭借海外市场收入高

单县4块土地使用权挂牌出让公告

单县4块土地使用权挂牌出让公告,单县,起始价,容积率,绿地率,工业用地,

官宣!广州、深圳,加杠杆了!

官宣!广州、深圳,加杠杆了!,房票,限购,楼市,重庆,加杠杆,深圳市,广

武陵区2924栋经营性居民自建房已挂上安全“明白卡”

武陵区2924栋经营性居民自建房已挂上安全“明白卡”,明白卡,自建房,武

我省正式发布12项公共资源交易地方标准

日前,湖南省市场监管局发布通告,《公共资源交易平台数字见证管理规范

中国银行深圳市分行:“认房不认贷”31日起全面执行

上证报中国证券网讯继8月30日深圳官宣执行“认房不认贷”后,中国银行

游客边走边买商家纷纷入局,城市漫步“走”出消费新时尚

市民游客边走边买,串联众多消费场景;商家机构纷纷入局,深挖需求释放

“屋面防水+光伏”守护广德市科技创业园,科顺股份实力发挥“1+1>2”增倍效果

隔热、保温、绿电、降碳工商业光伏正为企业加快实现绿色用能而与此

碧桂园出现创记录亏损,房地产低迷下的资金链紧张显现

碧桂园出现创记录亏损,房地产低迷下的资金链紧张显现,债券,股权,碧桂

信邦制药08月30日被深股通减持115.04万股

08月30日,信邦制药被深股通减持万股,最新持股量为万股,占公司A股总

天津滨海新区4宗涉宅地底价成交 总价共计14.3亿元

天津滨海新区4宗涉宅地底价成交总价共计14 3亿元,地价,起始价,天津市,

东华科技08月30日被深股通减持14.62万股

08月30日,东华科技被深股通减持14 62万股,最新持股量为82 25万股,占

购房首付款比例下调至20%,你贷款买房的欲望,会被激发起来吗?

购房首付款比例下调至20%,你贷款买房的欲望,会被激发起来吗?,购房,

精彩推荐