DeltaVLM: 基于指令引导的遥感影像交互式变化分析

传统的遥感变化检测方法通常只能输出二值变化图，告诉我们”哪里变了”，却无法回答”发生了什么变化”、”变化程度如何”等更深层的问题。随着视觉语言模型（VLM）的发展，我们是否能让模型像人类分析师一样，以对话的方式灵活地分析遥感影像中的变化？

在我们发表于 Remote Sensing 的工作 DeltaVLM (Deng et al., 2026) 中，我们提出了一种基于指令引导的交互式遥感影像变化分析框架，旨在通过自然语言指令驱动模型对双时相影像进行多维度的变化理解。

研究动机

现有的变化检测方法面临以下局限：

我们希望构建一个统一的框架，使其能够根据不同的自然语言指令，完成多种变化分析任务。

DeltaVLM Framework

DeltaVLM 的核心架构包含以下关键组件：

采用 EVA-ViT-g/14 作为视觉骨干网络，分别对前后两个时相的遥感影像进行特征提取，并通过微调最后几层来适应遥感领域的特征分布。

这是 DeltaVLM 的核心创新。该模块包含一个 跨语义关系度量（Cross-Semantic Relation Measuring, CSRM） 机制，能够过滤双时相特征中的无关变化（如光照、季节等干扰因素），聚焦于语义上有意义的变化信息。

在 Q-Former 的基础上引入用户指令信息，使得视觉特征的聚合过程受到指令语义的引导，从而根据不同的查询意图提取不同维度的变化表征。

基于 Vicuna-7B 语言模型，将对齐后的视觉-语义特征解码为流畅的自然语言回复。

为训练 DeltaVLM，我们构建了 ChangeChat-105k 数据集，包含约 88k 训练样本和 17k 测试样本，覆盖六种指令类型：

数据集通过结合 ChatGPT 生成和基于规则的方法构建，确保了指令的多样性和回答的准确性。

DeltaVLM 将遥感变化检测从”被动检测”推向”交互式理解”，通过统一的视觉语言框架支持多种变化分析任务。该工作为遥感智能分析与大语言模型的结合提供了新的思路。

论文和代码已公开：