返回博客

历史首次:卫星搭载视觉语言模型在轨自主识别目标

2026年6月16日阅读约 6 分钟
历史首次:卫星搭载视觉语言模型在轨自主识别目标

一颗地球观测卫星首次在轨自主完成目标识别,无需地面人工分析。这一里程碑由Loft Orbital和NASA JPL合作实现,使用Google DeepMind的Gemma 3视觉语言模型。

历史首次:卫星搭载AI视觉模型在轨自主识别目标

2026年4月,人类航天史迎来了一个里程碑时刻:一颗地球观测卫星首次在轨自主找到了它要寻找的目标——完全不需要地面人工分析师的参与。

技术突破:VLM首次进入太空

这一突破由太空基础设施公司Loft Orbital的YAM-9航天器实现,搭载了NASA喷气推进实验室(JPL)开发的软件包和Google DeepMind的Gemma 3视觉语言模型(VLM)。Gemma 3是专为边缘应用设计的模型,能够在远离数据中心的有限硬件上运行。

传统上,卫星需要将大量数据下载到地面,由分析师使用机器学习算法或肉眼来判断图像内容。但YAM-9改变了这一模式——研究人员用自然语言向卫星提问,比如"找到自然环境与人类开发区域交界的地方"或"识别铁路枢纽周围的基础设施",卫星直接在轨完成了分析和识别。

硬件配置与软件优化

YAM-9于2025年秋季发射,搭载了Nvidia Jetson Orin AGX GPU——这是目前太空计算中使用的主流芯片之一。NASA JPL的AI团队负责人Juan Delfa Victoria领导开发了NAVI-Orbital软件包,作为Gemma 3 VLM的"缰绳"。虽然Gemma 3是现成模型,但工程师们必须精简软件包以减少所需的库和内存。

近期与远期意义

这一演示在近期和远期都具有重大意义。短期内,它可以通过在轨数据初筛使太空传感器变得更加有用,减少分析师目前必须处理的海量原始数据。长期来看,它是在太空运行更大规模AI基础设施的概念验证。

Loft Orbital的AI负责人Paul Lasserre表示:"这为太空中的'始终在线巡逻层'打开了大门。如果你有一个VLM,你可以设定逻辑——比如'帮我监控这条边界,发现可疑情况通知我',并与卫星进行来回交互。"

行业跟进与未来展望

虽然这是首次报道的VLM在轨使用,但其他公司也在跟进。Planet Labs已经在卫星上使用Jetson Orin处理器进行简单的物体检测,并表示正在研究包括VLM在内的其他AI应用。Kepler Communications运营着太空中最大的GPU集群,虽然因保密协议未透露是否部署了VLM,但表示自1月发射以来已有"多个未公开的用例"。

Lasserre表示,要实现地球任意地点的实时覆盖,大约需要50到100颗像YAM-9这样的卫星。Loft目前运营着12颗在轨航天器。这些经验还将为未来在月球或火星探索中为宇航员提供AI数字助手铺平道路。