赋能千行百业,盘古大模型的底气从何而来?
贝克街探案官
作者:鲁镇西
(资料图)
算力,早已成为21世纪新基建
在2023世界人工智能大会上,华为发布了自研的“盘古大模型3.0”。在华为人眼中,大模型要真正发挥价值,就要走入千行百业。
华为云CEO张平安公开表示华为盘古大模型不作诗,只做事,针对不同用户的应用场景,华为准备了100亿、380亿、710亿、1000亿等不同规模的大模型,并提供全套开发套件,帮助客户二次训练私有数据且保证其纯私域运行。
秉持着“AI for Industries”(工业领域人工智能/工业互联网)理念,华为云打造了金融、政务、制造、矿山、气象、铁路等领域行业大模型和能力集,涉及项目超过1000个,除了学习大量通用知识外,盘古还深耕金融、政务、气象、医疗、健康、互联网、教育、汽车、零售等行业,每个行业数据量超过500亿tokens,确保不同行业的客户即来即用。
01 盘古如何改变世界?
工业互联网产业链可分为设备层、网络层、平台层、软件层、应用层和安全体系等六大部分。
从产业链划分,设备层、网络层属产业链上游,应用层属产业链下游,其余部分就是华为盘古大模型所处的产业链中游。
聚焦盘古大模型,华为首先用一站式AI开发平台ModelArts建立了L0基础通用模型,包括CV大模型、NLP大模型、科学计算大模型等,其中CV大模型可应用于工业质检、物流仓库监控、时尚辅助设计等领域,NLP大模型可应用于智能文档搜索、智能ERP、小语种大模型等领域,科学计算大模型可应用于气象预报、海浪预测等领域。
其次是建立L1级模型,将基础模型与行业数据结合进行混合训练后的行业的模型,已经发布矿山、气象、药物、分子、电力、海浪、金融等行业的大模型,在L1基础上,L2级把L1再具体下游业务场景进行部署后生成的部署模型,如OCR模型、电力巡检模型。
基于“预训练+下游微调”的工业化AI开发模式,盘古大模型拥有泛化能力强、小样本学习和模型高精度三大特性,因此高度适配各类复杂的工业应用场景,解决了AI无法规模化、产业化的难题,能够通过小样本学习掌握行业细化知识,且实现精度较高。
按照华为的规划,L0基础通用模型会由科研机构主导,L1行业大模型由科研机构+行业伙伴主导,L2场景模型,由科研机构和行业场景化专家主导。
在此基础上,华为将模型的发展由小作坊模式过渡到工业化模式,强化了模型网络架构和泛化能力。在盘古三大基础模型架构上,依次推出了盘古多模态、图网络、药物分子、矿山、气象、海浪、金融OCR等大模型,并实现落地应用。
仅以气象领域为例,盘古于今年2月份提前两天预测到发生在芬兰的寒潮,欧洲自己的气象系统只是在寒潮当天“准时预报”,且预测低温为零下15摄氏度,盘古预计的低温是零下22摄氏度,更接近实际低温零下29摄氏度。
此后,欧洲气象局将盘古列为重要参考对象,国际科技期刊nature也正式刊发了关于盘古气象预测的文章——《三维神经网络用于精准中期全球天气预报》(《Accurate medium-range global weather forecasting with 3D neural networks》)。
公开数据显示,这是近年来中国科技公司首篇作为唯一署名单位发表的《自然》正刊论文。
鉴于盘古目前展现出来的极强的TO B特性,盘古或许可以聚合工业互联网不同细分领域的优势企业,成为庞大生态伙伴体系,加速训练垂直行业模型,帮助工业企业更快地构建符合具体场景的小模型或收编高度定制化的小模型,以满足各个生产环节对AI的需求,快速生成高质量生产数据,指导机器人或产线完成各种复杂的任务,实现更高水平的人机协作。
伴随围绕盘古的生态体系不断完善,盘古或许会成为数字化企业和智能工厂的指挥部,成为广泛应用的“工业GPT”。
02 算力支撑盘古腾飞
众所周知,大模型的稳定运行离不开算力的支撑,对比OpenAI等可以使用成熟GPU、软件,华为只能自己从零开始搭建模型运行环境,成功发布以鲲鹏、昇腾为基础的算力底座,并通过通过不断创新,持续提升的计算效率。
2019年,华为推出了昇腾AI集群,发挥云、计算、存储、网络、能源的综合优势,相当于把AI数据中心当成一台超级计算机来设计,使得昇腾AI集群性能更高,并且更可靠,时至今日,基于此训练的盘古大模型,效能不仅不落后,而且还领先于现在业界主流GPU的1.1倍。
同时华为还将昇腾外租,目前已经在贵安、芜湖、乌兰察布设立三大AI算力中心当前在华为云乌兰察布和贵安数据中心,已经上线单集群2000P Flops昇腾AI云服务,为行业大模型训练提供稳定、绿色的澎湃算力,让大模型触手可及,实测发现通过集群的方式,在同等算力的情况下可以得到10%以上的效率提升。
这主要得益于华为发布的AI处理器,其中昇腾310AI处理器典型配置下可以输出16TOPS@INT8和8TOPS@FP16,功耗8W;910AI处理器实现了业界较佳的AI性能与能效,可输出640TOPS@INT8和320TFLOPS@FP16,功耗310W。
这两款芯片均基于自研的华为达芬奇架构3DCube技术,为盘古大模型提供了充足的算力支持。
有了优质芯片的加持,按照华为的规划,华为在国内建设的规模最大的AI计算集群在深圳鹏城云脑II期,目前算力是1000P的规模,按照规划,到2024年三期的时候,规模会达到16000P的水平。
在计算节点层面,华为推出的对等平构架构,突破传统的以CPU为中心的异构计算带来的性能瓶颈,从而提升整个计算的带宽、降低时延,使得节点性能得到30%的提升。
值得注意的是,昇腾云的稳定性比使用GPU的云服务商更好,在大模型训练过程中,经常会遇到GPU故障,不得不重启训练,时间长代价大。昇腾云服务可以提供更长稳的AI算力服务,千卡训练30天长稳率达到90%,断点恢复时长不超过10分钟。
为了进一步提升大模型开发效率,华为云提供全流程的大模型开发套件,包括数据工程平台,让数据标注效率提升3倍;模型开发套件,让开发者可以一天内完成典型模型微调任务;以及应用开发套件,开发者可以基于灵活的SDK快速开展大模型应用开发。参照GPT-3完成一个千亿行业模型的端到端开发,从过去需要5个月缩短到现在1个月,整体速度提升5倍。
更快的训练速度,可以帮助盘古用户降低投入成本,从而吸引更多企业前来合作,华为云汇聚了“华为企业IT管理应用”与“华为终端云互联网移动应用”两大类应用开发实践,面向华为云内外部开发者,打造一站式、集成式和开放式的云原生应用平台AppArts,实现云原生应用高效开发,极简运维、精准运营,促进更多应用在华为云上开发、运维、运营,形成华为云的应用生态。
03 5G网络为云而生
充足高效的算力支撑,只是云服务商的基础,想要为客户提供“即时”“低延迟”的服务,还需要有稳定高效的网络系统。
目前市场上存在三大类主流的工业网络通信协议——现场总线、工业以太网、无线,其各自又包含不同的细分协议,适用于不同厂商、不同细分应用场景,过于碎片化的标准导致工业互联网生态较为封闭;同时现有协议以发达国家为主导,我国有望在无线领域弯道超车。
根据HMS数据,全球工业网络新安装节点2022年相比2021年同比增长8%,其中工业以太网同比增长10%,现场总线同比增长4%,无线同比增长8%;市场份额方面,2016-2022年,工业以太网份额由38%提升至66%,现场总线由58%下降至27%。
现行技术条件下,5G与TSN(时间敏感网络)融合,打破封闭生态,有望引领下一代网络升级方向。TSN,即在非确定性的以太网中实现确定性的最小时间延时的协议族,可以满足工业4.0的确定性时延及协议统一的诉求,将TSN技术原理与5G网络的传输过程进行融合,可以更为有效地保证5G网络的端到端高可靠低时延传输要求,创造一个脱离有线束缚、满足端到端确定性时延、具备开放生态的工业网络新时代。
作为全球重要通信设备厂,华为4月4日参与中国电信在武汉召开中国电信5G全连接工厂应用发布会,发布多项5G技术在工业领域的深度应用创新成果,提升以5G全连接工厂等项目为标杆的示范引领性,助力规上工业企业数字化改造“全覆盖”。
同时联合中国移动基于5G-Advanced技术,在现场实现了包括超大规模天线阵列、8流MIMO、增强型UPF动态多核聚合、智能卸载等多项性能的验证,并测得了超过10Gbps的单用户峰值速率,相比5G突破10倍能力提升,论证了5G-Advanced实现下行万兆速率从核心网、基站到终端的关键技术要求,为端到端产业成熟奠定基础。
设备采购方面,华为中标中国移动2022 年至 2023 年全闪存存储和光纤交换机集中采购项目;中标江苏省FTTR 全光组网设备(第一批)项目;入围广电IP骨干网(一期)工程国干网四份相关设备集采项目的候选人。
至此,作为国内受限最多科技公司,不仅没有自怨自艾,反而不断突破封锁,并为国内其他企业保留了一条退路,毕竟按照海外厂商的套路,当国内大模型企业发展到一定规模以至于可以挑战OpenAI的行业地位,势必会再次承受制裁,比如全面禁止AI芯片出口,若真有此日,华为的昇腾云服务就可以直接替代,不仅可以实现算力替代,还能保证5G通信安全,因此无论盘古发展多么迅速,规模多么庞大,都不会再重蹈当年手机业务的覆辙,可以尽情尝试无限可能,甚至可以试图超越OpenAI。
© THE END
本文仅作为分享学习使用,不构成任何投资建议。
本文由贝克街探案官原创,未经许可,请勿转载。