因为诸多对 AI模型的研究已经发现,大模型许多能力上的惊人突破,并非一个线性的过程,而是会在模型尺寸达到一个量级时发生突然的「进化」,也就是「突现」。不管你喜不喜欢,但事实就是,虽然AI 看起来高大上,但它的突破需要的,的确是一次不期而至的「大力出奇迹」。
FDF智能合约周期收益系统开发,FDF智能合约周期收益开发,FDF智能合约周期收益源码开发,FDF智能合约周期收益平台开发,FDF智能合约周期收益app开发,FDF智能合约周期收益系统多少钱,FDF智能合约周期收益价格,FDF智能合约周期收益app功能,FDF智能合约周期收益平台介绍,FDF智能合约周期收益系统搭建。
但如果留意近一段时间的讨论,会发现一些此前曾表示开发出大模型的机构和领头者或明星科学家,却选择跳离这些机构,避而不谈曾经高调宣扬的自己已有的进展,放弃更接近突现的节点而去从零开始,背后原因可能不言自明。
一些人抓住「一生一遇」机会的方式,是追随别人的iPhone时刻而去,试图重新来过,过度兴奋于「chat」高度拟人的实现效果带来的资本与商业想象力。但那些真正在产业里摸爬的中国科技公司,那些真正花很多年的心血打造自己的大模型的中国人工智能科学家们心里清楚:真正的属于自己的iPhone时刻,不在众声喧哗之侧,不在「chat」本身,而是在「GPT」上,也就是自己曾经多年的辛苦建模、训练和调参的基础之上。
只有让 Chat 的归 Chat,才能让 GPT 的归 GPT,自己的GPT,比什么都重要。
论系统战,论持久战
当我们从这种「历史在一夜之间改变」的兴奋脱离出来,会明白大模型的竞争是一场全面战争,它像所有历史上波澜壮阔的技术变革一样,也将是旷日持久的。
这种全面战争首先体现在它不只是某一个模型的问题,而是一个系统的问题。
在人们津津乐道的微软借助 OpenAI 逆袭谷歌的故事里,有些被忽略的是微软提供给 OpenAI 的云计算能力对ChatGPT 的重要性。
根据公开资料,微软为 OpenAI 的 GPT3 训练,提供了一个有一万块 GPU的分布式集群,并且这些昂贵的计算资源和计算能力也专门为 OpenAI 做了优化。
微软的云计算 Azure,为 OpenAI建立和部署了多个大规模的高性能计算(HPC)系统,根据一些研究数据,微软 Azure「与其他云服务对手相比,为每个 GPU 提供了近2 倍的计算吞吐量,并且由于其网络和系统软件的优化,可以近乎线性地扩展到数千个 GPU。在模型推理方面,微软 Azure更具成本效益,每美元的推理能获得 2 倍的性能。」
这说明类似 ChatGPT 的大模型是 AI+云计算的全方位竞争,需要超大规模智算平台对芯片、系统、网络、存储到数据进行全盘系统优化。
这些作为基础设施的计算平台提供的不只是高效率的支持,往后更多的甚至是定制化的支持——一丁点的算力浪费,都会是这场竞争里致命的成本。
这种复杂的系统是以云计算为代表的新技术发展到极高复杂度阶段的结果,而中国科技公司在这个技术周期里生长出来的技术自觉和为此付出的长期努力,让它们也拥有了自己的复杂系统,从而也有了参与这场ChatGPT 竞争的「入场券」。
其中能力为完备的当属阿里巴巴,因为云、数据、系统和芯片。
阿里云的飞天智算平台在去 IOE 的过程中诞生,逐渐成长为一个超大规模的高性能计算集群,并且已是国内唯一能实现万卡规模的 AI集群。它在一个超大规模高性能网络中,构建了一个可以持续进化的智能算力系统,与此同时,阿里云自研的高性能集合通信库 ACCL和自研的网络交换机也建立了无拥塞、高性能的集群通讯能力。
据公开资料,飞天智算平台的千卡并行效率达90%。针对数据密集型场景的大规模集群,还进行了数据 IO 优化,通过自研KSpeed 和 RDMA 高速网络架构,高可将存储 IO 性能提升 10 倍,将时延显著降低了90%。此外飞天智算平台的机器学习平台 PAI,专门针对 AI 大模型推理和训练场景进行针对性优化,可将计算资源利用率提高 3倍以上,AI 训练效率提升 11 倍,推理效率提升 6 倍。阿里的 M6 模型,在训练阶段使用的正是阿里云机器学习 PAI平台自研的分布式训练框架 EPL(Easy Parallel Library)。