新闻动态
上海乌斯克信息科技股份有限公司
新闻动态
位置: 首页>>新闻动态
《开放加速规范AI服务器设计指南》发布,应对生成式AI算力挑战
发布时间:2023-09-04 12:11:11
  |  
阅读量:----
字号:
A+ A- A

“在2023年开放计较社区中国峰会(OCP China Day 2023)上,《开放加快规范AI办事器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI利用场景,进一步成长和完美了开放加快规范AI办事器的设计理论和设计方式,将助力社区成员高效开辟合适开放加快规范的AI加快卡,并年夜幅缩短与AI办事器的适配周期,为用户供给最好匹配利用场景的AI算力产物方案,掌控生成式AI爆发带来的算力财产庞大机缘。

在2023年开放计较社区中国峰会(OCP China Day 2023)上,《开放加快规范AI办事器设计指南》(以下简称《指南》)发布。《指南》面向生成式AI利用场景,进一步成长和完美了开放加快规范AI办事器的设计理论和设计方式,将助力社区成员高效开辟合适开放加快规范的AI加快卡,并年夜幅缩短与AI办事器的适配周期,为用户供给最好匹配利用场景的AI算力产物方案,掌控生成式AI爆发带来的算力财产庞大机缘。

1.jpg

当前,生成式AI手艺飞速成长,引领了新一轮AI立异海潮。AI年夜模子是生成式AI的要害底座,对出产效力晋升、传统财产转型进级具有重年夜的价值潜力,而年夜模子的高效练习凡是需要具有千卡以上高算力AI芯片组成的AI办事器集群支持。跟着生成式AI加快落地,业界对设置装备摆设高算力AI芯片的AI办事器需求也不竭高涨。在此布景下,全球已有上百家公司投入新型AI加快芯片的开辟,AI计较芯片多元化趋向凸显。因为缺少同一的业界规范,分歧厂商的AI加快芯片存在显著差别,致使分歧芯片需要定制化的系统硬件平台承载,带来更高的开辟本钱和更长的开辟周期。OCP是全球根本硬件手艺范畴笼盖面最广、最有影响力的开源组织。2019年OCP成立OAI(Open Accelerator Infrastructure)小组,对更合适超年夜范围深度进修练习的AI加快卡形态进行了界说,以解决多元AI加快卡形态和接口不同一的问题。2019年末,OCP正式发布了OAI-UBB(Universal Baseboard)1.0设计规范,并随后推出了基在OAI-UBB1.0规范的开放加快硬件平台,无需硬件点窜便可撑持分歧厂商的OAM产物。最近几年来,以海潮信息为代表的系统厂商研制了多款合适开放加快规范的AI办事器,实现了开放加快AI办事器的财产化实践。基在在开放加快计较范畴的产物研发和工程实践经验,《指南》进一步成长和完美了开放加快规范AI办事器的设计理论和设计方式,提出四年夜设计原则、全栈设计方式,包罗硬件设计参考、治理接口规范和机能测试尺度,旨在帮忙社区成员更快更好地开辟AI加快卡并适配开放加快AI办事器,应对生成式AI的算力挑战。《指南》指出,开放加快规范AI办事器设计应遵守四年夜设计原则,即利用导向、多元开放、绿色高效、兼顾设计。在此根本上,应采取多维协同设计、周全系统测试和机能测评调优的设计方式,以提高适配摆设效力、系统不变性、系统可用性。多维协同设计是指系统厂商和芯片厂商在计划早期要做好全方位、多维度的协同,最年夜化削减定制开辟内容。年夜模子计较系统凡是是一体化高集成度算力集群,包括计较、存储、收集装备,软件、框架、模子组件,机柜、制冷、供电、液冷根本举措措施等。只有经由过程多维协同,才能实现全局最优的机能、能效或TCO指标,提高系统适配和集群摆设效力。《指南》给出了从节点到集群的软硬全栈参考设计。周全系统测试是指异构加快计较节点凡是故障率高,需要加倍周全、严苛的测试,才能最年夜水平下降系统出产、摆设、运行进程中的故障风险,提高系统不变性,削减断点对练习延续性的影响。《指南》对布局、散热、压力、不变性、软件兼容性等方面的测试要点进行了周全梳理。机能测评调优是指需要对年夜模子加快计较系统展开多条理的机能评测和软硬件深度调优。《指南》给出了根本机能、互连机能、模子机能测试的要点和指标,并指出了针对年夜模子练习和推理机能调优的要点,以确保开放加快规范AI办事器可以或许有用完成当前主流年夜模子的立异利用支持。