谷歌首次曝光太空AI计划:要建“AI版星链”,AGI的终极基础设施?
前天我写了一篇文章介绍了微软CEO最新采访,由于数据中心缺电,导致微软买的老黄的GPU插不上电,这已经不是一家公司的问题,而是未来全球性问题,这也导致了当前整个AI投资逻辑发生了巨大变化,感兴趣的看我的文章:。结论就是能源已经成为了一个核心问题
结果今天谷歌反手就发了一项前瞻性研究计划Project Suncatcher(太阳捕手计划),旨在探索构建一个基于太空、可高度扩展的AI计算集群,你可以把它理解为”AI版星链”
谷歌这次把眼光放在整个太阳系了,随着 AI 对计算能力和能源需求的爆炸式增长,地球资源将面临巨大压力,而太阳系中最丰富、最强大的能源——太阳能,在太空中可以被更高效地利用
简单来说Project Suncatcher项目的设想是通过部署由太阳能供电、搭载 Google TPU 并由自由空间光通信连接的卫星星座,在近地轨道上构建一个“太空数据中心”。初步研究表明,尽管存在巨大的工程挑战,但从基础物理学和未来经济可行性的角度来看,这一构想并非遥不可及
马斯克已经给劈柴哥留言了,表示想法很好,劈柴哥说这完全得益于SpaceX在发射技术方面的巨大进步,看来马斯克又要坐着数钱了
谷歌今天已经发表了预印本论文《 面向未来高度可扩展的天基人工智能基础设施系统设计 》,揭秘了一些早期研究成果
paper:
https://services.google.com/fh/files/misc/suncatcher_paper.pdf
以下是论文的详细解读
为什么要在太空中进行 AI 计算?
LLM快速发展正在面临前所未有的挑战:对计算能力和能源的巨大需求
尽管算法效率在不断提升,例如,Google Gemini 的单次查询能耗在一年内降低了 33 倍,但 AI 产品和服务的增长速度更快,导致全球数据中心的能源需求急剧攀升。为了满足这种增长,必须寻找更具可扩展性和可持续性的能源解决方案
Project Suncatcher 的出发点正是基于这一根本性问题,并将目光投向了我们太阳系中最宏伟的能量源:太阳
太阳的巨大潜力:太阳每秒释放的能量高达 3.86 × 10²⁶ 瓦,是人类总发电量的 100 万亿倍以上,几乎取之不尽
太空的独特优势:在太空中利用太阳能,相比于地球表面具有显著优势。在特定的轨道上,太阳能电池板几乎可以 24 小时不间断地接收光照,摆脱了昼夜循环和天气的影响。这使得其发电效率比地球上中纬度地区的太阳能电池板高出最多 8 倍,同时也大大降低了对重型储能电池的依赖
传统的太空太阳能构想通常聚焦于如何将产生的电力传输回地球,但这面临着巨大的技术挑战。Project Suncatcher 提出了一个新的思路:与其将能源传回地球,不如直接将数据中心(即计算任务)部署到太空。这个太空数据中心将由大量通过自由空间光链路高速互联的太阳能卫星组成。这种方法不仅有望实现前所未有的计算规模,还能最大限度地减少对地球土地、水等宝贵资源的影响
这个项目是 Google 继自动驾驶汽车(Waymo)和大规模量子计算机之后,又一次挑战科学和工程极限的“登月计划”
Suncatcher 系统设计:构建轨道上的 AI 集群
为了实现这一愿景,Project Suncatcher 提出了一个由模块化、小型化卫星组成的星座系统设计。这种设计放弃了建造单一、巨大的“巨石型”空间数据中心的想法,因为后者需要复杂的在轨组装,且在避障和结构上都面临更大困难。模块化设计则为逐步扩展和迭代提供了极大的灵活性
系统的核心设计要素包括:
轨道选择:计划将卫星星座部署在晨昏-太阳同步近地轨道(dawn–dusk sun-synchronous low earth orbit, LEO)。这个轨道的特点是卫星始终飞行在地球的晨昏线上方,这意味着它们几乎可以持续不断地被太阳照射。这不仅最大化了太阳能的收集效率,也进一步减少了对电池的需求,从而降低了卫星的质量和发射成本。同时,近地轨道也能有效降低与地面站通信的延迟
计算核心:每颗卫星都将携带 Google 的 TPU 加速器芯片。具体来说,初步测试使用的是 Trillium,即 Google 的 v6e Cloud TPU。这些芯片将负责执行大规模的机器学习(ML)工作负载
高速互联:为了让分散在多颗卫星上的 TPU 协同工作,如同在地面数据中心一样,必须建立超高带宽、超低延迟的连接。这通过自由空间光通信(FSO)技术实现。为了达到所需的通信性能,卫星之间将以非常近的距离(数百米到数公里)进行编队飞行
编队控制:维持如此紧密的卫星编队是一项巨大的挑战。系统将采用基于机器学习的飞行控制模型,精确控制每颗卫星的轨道,确保它们在保持紧密距离的同时能够避免碰撞
热量管理:在真空中,高功率的 TPU 芯片产生的热量无法通过对流散发,必须通过热管和散热器以热辐射的形式排向太空。高效的热管理系统对于保证芯片在标称温度下稳定运行至关重要
这一系列设计旨在最大化每公斤发射质量所能提供的计算能力,从而在经济上更具可行性。该研究计划的首要任务,就是逐一攻克实现这一系统所面临的四大核心技术挑战
挑战一:实现数据中心级的星间光通信
大规模机器学习任务,特别是模型训练,要求计算集群中的各个加速器之间能够进行海量数据的快速交换。地面上的 Google TPU 超级计算机通过定制的、每秒数G的光学芯片间互连来满足这一需求。然而,目前商业化的星间光链路的数据速率通常在 1 到 100 G之间,远不能满足要求。Project Suncatcher 的目标是实现每秒数十TB的星间链路带宽,这是一个数量级的飞跃
解决方案:短距离 + 多通道
谷歌研究团队发现,可以采用类似于地面数据中心中成熟的商用密集波分复用(Dense Wavelength Division Multiplexing, DWDM)收发器技术。但这种技术有一个关键瓶颈:它需要非常高的接收光功率,通常在数百微瓦的量级,而传统长距离星间通信的接收功率仅为 1 微瓦左右
物理学原理提供了解决方案:在自由空间中,接收到的光功率与通信距离的平方成反比(P ∝ 1/d²)。这意味着,只要将卫星之间的距离急剧缩短,就可以显著提高接收功率,从而满足 DWDM 收发器的工作条件,即“闭合链路预算”。通过将卫星编队距离缩短至几公里甚至更近,就能克服这一功率挑战
进一步扩展:空间复用(Spatial Multiplexing)
当通信距离变得非常短时(例如,对于一个 10 厘米的望远镜,距离在 10 公里以内),光束的发散角很小,光斑尺寸也相应变小。这为空间复用带来了新的机遇
研究团队可以在一个总孔径内集成多个独立的光学收发系统阵列。例如,在一个 10 厘米的总孔径中,可以集成一个 2×2 的 5 厘米光学系统阵列(适用于 2.5 公里距离),或一个 4×4 的 2.5 厘米光学系统阵列(适用于 0.63 公里距离)。每个子系统都承载一个独立的 DWDM 数据流,从而使总带宽成倍增加。这种扩展方式类似于 Google 在地面上使用的 Palomar 光学电路交换机
初步验证
为了验证这一概念,谷歌团队已经搭建了一个实验室规模的演示系统。该系统使用现成的商用组件,在一小段自由空间路径上成功实现了单向 800G,双向总计 1.6 Tb的传输速率,有力地证明了该技术路线的潜力
挑战二:驾驭大规模紧密卫星编队的轨道动力学
为了实现超高带宽的星间通信,Suncatcher 的卫星星座需要以前所未有的紧密队形飞行。谷歌研究团队通过数值和解析物理模型,深入分析了这种星座的轨道动力学特性。
建模与仿真
团队以一个由 81 颗卫星组成的平面星座作为示例进行分析。该星座的平均轨道高度为 650 公里,整个集群的半径 R 为 1 公里。在这种配置下,相邻卫星之间的距离会在 100 米到 200 米之间周期性地振荡
建模的起点是经典的 Hill-Clohessy-Wiltshire (HCW) 方程,它描述了在理想开普勒轨道下,一颗卫星相对于另一颗卫星的相对运动。随后,团队使用了一个基于 JAX(一种可微分编程框架)的模型进行数值优化,该模型能够计入更复杂的扰动因素
在 650 公里的轨道高度,影响卫星轨道最主要的非开普勒效应是地球引力场的非球形性(特别是由于地球扁率引起的 J2 项扰动)以及潜在的大气阻力
“自由落体”星座的动态演化
仿真结果显示,这个星座并非一个刚性结构,而是在引力作用下持续演化的“自由落体”集群。在没有推力干预的情况下,整个星座的形状会在一个轨道周期内完成两次完整的变形循环,其边界始终被一个旋转的椭球所包裹
有趣的是,这种动态演化在很大程度上是稳定且可预测的。即使考虑了地球扁率(J2 项)的影响,这种可预测的漂移也可以通过对星座初始形状进行微小的调整来补偿。例如,将椭球的轴长比微调至 2:1.0037,就可以将 J2 项引起的漂移降低到每年每公里仅 3 米/秒的水平
结论:低成本的轨道维持
这些模型分析表明,维持这样一个紧密编队可能只需要适度的轨道维持机动,其燃料消耗可能不会显著超过维持单颗卫星精确轨道所需。这意味着,控制这样一个庞大而紧密的星座在技术上是可行的,且运营成本可控
挑战三:商用 TPU 在太空辐射环境下的生存能力
将为地面数据中心设计的尖端商用芯片直接用于太空,最大的疑问在于它们能否承受太空中的辐射环境。Project Suncatcher 团队对 Google 的 Trillium v6e Cloud TPU进行了首次公开的辐射测试
测试环境:
团队使用67MeV(兆电子伏)的质子束来模拟太阳同步近地轨道上的辐射环境。在这个轨道上,主要的辐射源是穿透性强的质子和银河宇宙射线
测试模拟了带有 10 毫米铝等效屏蔽下的情况,预计 5 年任务期内的总辐射剂量约为 750 rad(Si)。
辐射效应与测试结果:
1.总电离剂量(Total Ionizing Dose, TID):这是辐射粒子在芯片绝缘层中累积电荷造成的长期退化效应
测试发现,TPU 中最敏感的部件是HBM子系统
HBM 在累积剂量达到 2 krad(Si)时才开始出现异常,这几乎是 5 年任务预期剂量的 3 倍
在高达 15 krad(Si) 的测试剂量下,芯片没有出现因 TID 导致的永久性硬故障。结论是,Trillium TPU 对于太空应用而言具有“惊人的辐射耐受性”。
2.单粒子效应:这是单个高能粒子撞击芯片,瞬间引起的逻辑错误或数据翻转
HBM 同样是 SEE 最敏感的部分,主要表现为不可纠正的 ECC(错误纠正码)错误(UECCs)
对于典型的推理任务,观测到的 HBM UECC 发生率约为每 50 rad 一次,换算下来,错误概率极低,大约为每一千万次推理发生一次。这个错误率对于推理应用是完全可以接受的
然而,SEE 对模型训练任务的影响,以及系统级缓解措施的有效性,还需要进一步研究
测试还发现,宿主系统的 CPU 和 RAM 分别在每 450 rad(Si) 和 400 rad(Si) 时会发生一次由 SEE 引起的系统崩溃
这些积极的测试结果表明,使用商用现成品(Commercial-Off-The-Shelf, COTS)的 ML 加速器在太空中是可行的,这为项目的经济性奠定了重要基础。
挑战四:太空 AI 的经济可行性与发射成本分析
历史上,高昂的发射成本是所有大规模太空项目的最大障碍。Project Suncatcher 的可行性在很大程度上取决于未来发射成本能否显著降低。
关键成本目标:
研究团队将太空数据中心的“发射功率价格”,即每发射一单位功率(kW)到轨道并分摊到年($/kW/y)的成本,与地面数据中心的年均电力成本进行比较
目前美国地面数据中心的年电力成本大约在570 至 3,000 美元/kW/y之间
发射成本的下降趋势:
分析 SpaceX 从猎鹰 1 号到重型猎鹰的历史发射价格和载荷数据,揭示了一个大约 20% 的学习率,即累计发射质量每翻一番,每公斤发射价格就下降约 20%。
如果这一学习率得以维持(这将需要每年约 180 次 Starship 级别的发射),那么到2030 年代中期,将有效载荷送入近地轨道的成本有望降至每公斤 200 美元以下
另一种基于 Starship 公开规格和复用目标的分析甚至更为乐观,预测成本可能低至每公斤 60 美元(10 次复用)甚至 15 美元(100 次复用)
成本对比结论:
以 Starlink v2 mini 卫星为例,如果发射成本降至 200 美元/公斤,其“发射功率价格”将约为 810 美元/kW/y
这个数字已经进入了地面数据中心电力成本的范围,表明从经济角度看,太空数据中心的运营成本(以发射成本为主要代表)可以与地面相当。即使发射成本的下降速度不及预期,例如降至 300 美元/公斤,相应的发射功率价格约为 1,200 美元/kW/y,仍然在可比范围内
因此,随着可重复使用运载火箭技术的成熟和规模化,发射成本将不再是不可逾越的障碍
未来的方向与下一步计划
Project Suncatcher 的初步分析结果还不错,证明了太空 AI 计算的核心概念并未被基础物理学或无法克服的经济障碍所否定。然而,要将这一愿景变为现实,仍有大量的工程挑战需要解决,例如高效的真空热管理、高带宽的星地通信、以及在轨系统的长期可靠性与维护等。
为了应对这些挑战,团队规划了清晰的下一步:
学习与验证任务:团队已与Planet公司合作,计划在2027 年初发射两颗原型卫星。这次在轨实验将是关键的里程碑,旨在:
在真实的太空环境中测试和验证轨道动力学模型。
检验 TPU 硬件在太空中的实际运行表现。
验证使用星间光链路执行分布式机器学习任务的可行性
未来的集成化设计:
未来,当星座规模达到吉瓦级别时,可能需要采用更激进的卫星设计理念
团队借鉴了智能手机行业从分立元件走向高度集成的片上系统的发展路径,设想未来的计算卫星也可能采用一种高度一体化的设计,将太阳能收集、计算单元和热管理系统紧密地结合在一起,从而实现质量和效率的最优化
延伸阅读:
丹麦新研究:受全球变暖等因素影响,格陵兰岛正在缩小且向西北漂移
来源:环球时报【环球时报综合报道】据新加坡《联合早报》4日报道,一项最新的研究显示,受全球变暖等因素影响,格陵兰岛的面积...
苹果被曝明年发布其首款低价 MacBook电脑,售价或低于 1000 美元
IT之家 11 月 5 日消息,彭博社记者马克・古尔曼今日报道称,苹果公司正计划进军低价笔记本电脑市场,这将是其首次推出...
“太空交接”完成,神二十航天员明日凯旋!
打开百度APP畅享高清图片 “太空交接”完成,神二十航天员明日凯旋。“中国空间站的钥匙,交给你们了”,这一富有使命感的接...
深夜全球巨震,英伟达市值一夜蒸发1.4万亿,虚拟货币46万人爆仓,金价大跌
记者丨江佩佩 见习记者张嘉钰编辑丨谢珍当地时间11月4日,全球金融市场多数重挫。美国三大股指全线收跌,道指跌0.53%,...
Perplexity 称亚马逊“霸凌”,双方就AI购物助手智能体爆发争议
IT之家 11 月 5 日消息,两家公司于当地时间周二公开证实,亚马逊(Amazon)向 Perplexity 发出了法...

