历史首次：卫星搭载视觉语言模型在轨自主识别目标 - 博客

一颗地球观测卫星首次在轨自主完成目标识别，无需地面人工分析。这一里程碑由Loft Orbital和NASA JPL合作实现，使用Google DeepMind的Gemma 3视觉语言模型。

历史首次：卫星搭载AI视觉模型在轨自主识别目标

2026年4月，人类航天史迎来了一个里程碑时刻：一颗地球观测卫星首次在轨自主找到了它要寻找的目标——完全不需要地面人工分析师的参与。

技术突破：VLM首次进入太空

这一突破由太空基础设施公司Loft Orbital的YAM-9航天器实现，搭载了NASA喷气推进实验室（JPL）开发的软件包和Google DeepMind的Gemma 3视觉语言模型（VLM）。Gemma 3是专为边缘应用设计的模型，能够在远离数据中心的有限硬件上运行。

传统上，卫星需要将大量数据下载到地面，由分析师使用机器学习算法或肉眼来判断图像内容。但YAM-9改变了这一模式——研究人员用自然语言向卫星提问，比如"找到自然环境与人类开发区域交界的地方"或"识别铁路枢纽周围的基础设施"，卫星直接在轨完成了分析和识别。

硬件配置与软件优化

YAM-9于2025年秋季发射，搭载了Nvidia Jetson Orin AGX GPU——这是目前太空计算中使用的主流芯片之一。NASA JPL的AI团队负责人Juan Delfa Victoria领导开发了NAVI-Orbital软件包，作为Gemma 3 VLM的"缰绳"。虽然Gemma 3是现成模型，但工程师们必须精简软件包以减少所需的库和内存。

近期与远期意义

这一演示在近期和远期都具有重大意义。短期内，它可以通过在轨数据初筛使太空传感器变得更加有用，减少分析师目前必须处理的海量原始数据。长期来看，它是在太空运行更大规模AI基础设施的概念验证。

Loft Orbital的AI负责人Paul Lasserre表示："这为太空中的'始终在线巡逻层'打开了大门。如果你有一个VLM，你可以设定逻辑——比如'帮我监控这条边界，发现可疑情况通知我'，并与卫星进行来回交互。"

行业跟进与未来展望

虽然这是首次报道的VLM在轨使用，但其他公司也在跟进。Planet Labs已经在卫星上使用Jetson Orin处理器进行简单的物体检测，并表示正在研究包括VLM在内的其他AI应用。Kepler Communications运营着太空中最大的GPU集群，虽然因保密协议未透露是否部署了VLM，但表示自1月发射以来已有"多个未公开的用例"。

Lasserre表示，要实现地球任意地点的实时覆盖，大约需要50到100颗像YAM-9这样的卫星。Loft目前运营着12颗在轨航天器。这些经验还将为未来在月球或火星探索中为宇航员提供AI数字助手铺平道路。