埃隆·马斯克(Elon Musk)已正式宣布在孟菲斯超级计算机设施开始GROK 3训练,该设施配备了NVIDIA最新一代H100 GPU。该设施被马斯克称为“世界上最强大的人工智能训练集群”,周一在单个RDMA结构上的10万个液冷H100 GPU的帮助下开始运行。
训练计划于孟菲斯当地时间凌晨4:20进行。马斯克在随后的推文中表示,世界上“最先进的人工智能”可能会在今年12月开发出来。马斯克还在推特上分享了X的成就,并祝贺xAI、X和NVIDIA的团队所做的出色工作。
此前,xAI和Oracle最近取消了100亿美元的服务器交易。马斯克表示,最初预计将于2025年秋季投入运营的xAI超级计算工厂已经提前开始运营。
xAI早些时候曾将其人工智能芯片从甲骨文外包,但决定退出,以开发自己的先进超级计算机。该项目现在计划利用最先进的H100 GPU的潜力,每个GPU的成本约为30000美元。GROK 2使用了20000个GPU,而GROK 3需要五倍的GPU来构建更复杂的AI聊天机器人。
另请阅读:埃隆·马斯克就特斯拉50亿美元的xAI投资征求公众意见
这非常令人惊讶,尤其是因为NVIDIA最近刚刚宣布即将发布基于Hopper架构的H200 GPU。决定开始使用H100 GPU进行训练,而不是等待H200或即将推出的基于Blackwell的B100和B200 GPU。H200 GPU于第二季度投入量产,有望显著提高性能,但xAI的当务之急是利用现有的H100基础设施来实现其雄心勃勃的目标。
人工智能和半导体专家Dylan Patel最初对运行孟菲斯超星系团的电力问题表示担忧。他指出,目前7兆瓦的电网供电只能维持约4000个GPU。田纳西河流域管理局(TVA)预计将向该设施供应50MW的电力,该协议预计将于8月1日签署。然而,满足全部电力需求所需的变电站将在2024年底完工。
在分析卫星图像时,帕特尔指出,马斯克使用了14台VoltaGrid移动发电机,可以产生2台。每个5兆瓦。这些发电机总共产生35兆瓦的电力。除了来自电网的8MW外,这使得它的总功率达到43MW,足以为大约32000个H100 GPU供电,并具有一定的功率上限。