当前位置：首页 > news >正文

大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》

news 来源：原创 2025/8/1 22:28:18

摘要

自主网页导航的进展一直受到以下因素的阻碍：

依赖于数十亿次的探索性交互（通常采用在线强化学习），
依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。

在本研究中，我们探讨了基于视觉-语言基础模型的数据驱动离线训练方法，以改进网页代理的性能。我们提出了一种名为 WebGUM 的指令跟随多模态代理，该代理能够同时观察网页截图和HTML 页面，并输出网页导航操作，例如点击和输入文本等。

WebGUM 通过联合微调一个指令微调的语言模型和一个视觉编码器进行训练，同时采用时间感知和局部感知，基于大量演示数据集实现学习。

实验结果表明，该方法显著提升了代理在以下方面的能力：

基于真实环境的多模态感知能力，
HTML 理解能力，
多步推理能力。

与现有方法相比，WebGUM 在多个基准测试中取得了显著优势：

在 MiniWoB 基准测试中，我们相比之前最好的离线方法，性能提升了45.8% 以上，甚至超越了在线微调的 SoTA、真人以及基于 GPT-4 的代理。
在 WebShop 基准测试中，我们的 30 亿参数模型性能优于现有最先进模型 PaLM-540B。
在 Mind2Web 真实世界规划任务中，WebGUM 也表现出了强大的正迁移能力。

此外，我们使用训练好的模型收集了347,000 个高质量演示样本，规模是以往工作的38 倍，并公开这些数据以促进该领域的未来研究。

1 引言

网页导航是一类序列决策问题，其中代理根据用户指令与网页界面交互（Shi 等, 2017；Liu 等, 2018；Gur 等, 2019）。常见的网页导航任务包括：

表单填写（Diaz 等, 2013），
信息检索（Nogueira & Cho, 2016；Adolphs 等, 2022），
通过一系列点击或输入操作发送电子邮件（见图 1）。

近年来，越来越多的研究致力于开发自动化代理，以减少人类在这些重复交互中的工作量（Mazumder & Riva, 2020；Li 等, 2020；Shvo 等, 2021）。

现有研究的局限性

大多数现有研究将网页导航问题视为在线强化学习（RL），试图通过任务特定的模型从零开始学习最优的动作分布（Liu 等, 2018；Gur 等, 2019；Jia 等, 2019；Humphreys 等, 2022）。然而，在线强化学习面临诸多挑战：

需要进行大量的试错过程，在实际应用中往往不可行，
导航失败可能导致严重后果，例如：
- 错误输入密码可能导致账户冻结，
- 在商业场景中，错误发送邮件可能引发业务问题。

相较之下，基于静态数据集的离线训练为网页代理提供了安全的开发环境，但其性能往往低于在线强化学习的方法（Humphreys 等, 2022；Gur 等, 2022）。

此外，许多先前的研究无法充分利用丰富的跨领域数据来提高泛化能力。原因在于：

这些研究通常采用专门设计的模型来显式处理文档对象模型（DOM）的层次结构及其依赖关系，例如：
- 使用 LSTM 处理结构化数据（Gur 等, 2019；2021），
- 使用 自注意力机制（Self-Attention） 进行结构建模（Liu 等, 2018），
- 采用 图神经网络（GNN） 建模 DOM 依赖关系（Jia 等, 2019）。
许多方法仅输出一组固定的分类操作（如点击、输入等）（Humphreys 等, 2022），这在真实世界的开放式网页导航场景中并不理想，无法适应灵活多变的任务需求。

综上所述，本研究旨在探索新的方法，以克服当前网页导航领域的局限性，并提高代理在开放式网页环境中的泛化能力和安全性。

最近进展与本研究贡献

近年来，基础模型（Foundation Models）（Bommasani 等, 2021），特别是大语言模型（LLM）（Brown 等, 2020；Chowdhery 等, 2022）在常识推理、符号推理、算术推理和多步逻辑推理方面表现出卓越的性能（Wei 等, 2022b;c；Kojima 等, 2022）。

这些模型能够实现变革性的泛化能力，并可以在实际应用中解决多种交互式决策问题，包括但不限于：

机器人任务规划（Huang 等, 2022a;b；Shah 等, 2022；Ahn 等, 2022），
桌面游戏（Meta Fundamental AI Research Diplomacy Team 等, 2022），
网页检索和浏览器爬取（Nakano 等, 2021；Yao 等, 2022b；Zaheer 等, 2022）。

本研究方法

在本研究中，我们利用预训练的视觉-语言基础模型，提出了一种用于自主网页代理的高效离线学习方案。具体而言，我们的主要创新包括以下四个方面：

多模态感知的引入
- 我们假设，基于真实环境的空间理解对网页导航至关重要（Humphreys 等, 2022；Toyama 等, 2021）。
- 为此，我们将语言模型与视觉 Transformer（ViT）（Dosovitskiy 等, 2020）结合，形成具有局部和时序信息感知能力的语义丰富的多模态嵌入，使代理能够同时处理网页截图和 HTML 页面。
指令微调的语言模型
- 我们认为，网页导航本质上是指令跟随任务，因此采用指令微调的 LLM（Wei 等, 2022a；Chung 等, 2022；Ouyang 等, 2022；Iyer 等, 2022），而非像 Gur 等（2022）采用的自监督预训练模型（Raffel 等, 2020；Brown 等, 2020）。
大规模多模态数据集
- 我们收集了包含 HTML 和网页截图的大规模多模态数据集，用于对语言模型和 ViT 进行联合微调，以提高模型的泛化能力。
自由格式的文本输出
- 我们的模型以自由格式文本输出网页导航动作（例如点击、输入等），以提高操作的灵活性和适应性。

通过这四个关键要素，我们提出了基于真实环境理解模型的网页导航代理（Web navigation via Grounded Understanding Models, WebGUM）。

WebGUM 的工作流程

如图 1 所示，WebGUM 在网页任务中接收自然语言指令，例如：

"请在电子邮件客户端中查找 Gisele 的电子邮件，并将其转发给 Siana。"

模型通过多模态感知计算机界面（网页截图 + HTML 结构），并通过一系列计算机操作（如点击、输入）完成任务。

实验结果

MiniWoB++ 基准测试（Shi 等, 2017；Liu 等, 2018）：
- 在此模拟网页导航环境下，WebGUM 在仅使用离线训练的情况下，性能较先前最优的基于 HTML 输入的离线方法（Gur 等, 2022）提高了45.8%，
- 甚至超越了在线强化学习（RL）方法（Humphreys 等, 2022）、人类，以及基于 GPT-4 的代理。
与人类和私有 LLM 代理对比（Kim 等, 2023；Sun 等, 2023）：
- WebGUM 在多个基准测试上表现出色，证明其在多模态感知、HTML 理解、多步推理方面的优势。

WebGUM 的关键优势分析（详见第 5 节）

我们进行了深入的消融实验和分析，以验证 WebGUM 在以下方面的优势：

时序和局部多模态感知能力
- 结合视觉和 HTML，能够更好地理解网页的动态变化，例如航班预订（+50%）、形状识别（+22%）、社交媒体爬取（+21%）。
数据集和模型规模扩展能力
- 证明大规模数据集和更大的模型规模能显著提升性能。
更好的 HTML 理解能力
- 采用基于 HTML 结构的微调方法，使模型更适应复杂网页任务。
多步推理能力
- 使用指令微调的语言模型（如 Chung 等, 2022），与自监督预训练模型（如 Raffel 等, 2020）相比，MiniWoB++ 成功率提高了 25%。
- 特别是在处理任务的未知组合和跨分布 HTML 输入方面表现突出。

其他基准测试表现

WebShop 基准测试（Yao 等, 2022a）
- 结果表明，语言模型的多步推理能力使其优于现有的最先进模型，例如 PaLM-540B（Yao 等, 2022b；Chowdhery 等, 2022）。
- WebGUM 仅使用 30 亿参数，即可超越 PaLM-540B。
Mind2Web 基准测试
- WebGUM 在真实世界任务预测方面展现出良好的迁移能力，能够处理复杂的跨任务操作。

综上所述，WebGUM 通过多模态感知、HTML 理解和多步推理的结合，在网页自动化领域实现了显著突破，为未来更强大的自主网页代理奠定了基础。

GPT-4 及数据集贡献

最终，我们在 MiniWoB++ 上收集了 347,000 个多模态专家示范数据，比现有的单模态数据集（Liu 等, 2018）大 38 倍，并将其公开以促进未来研究【1】。

我们认为，利用基础模型（foundation models）进行高效的离线训练，是实现真实世界网页自动化的可扩展方案，尤其是在在线交互成本极高的情况下。

2 相关工作

网页导航

在自主网页导航领域，已经提出了多种基准测试（Toyama 等, 2021；Burns 等, 2022；Yao 等, 2022a），其中最具代表性和包容性的基准之一是 MiniWoB++（Shi 等, 2017；Liu 等, 2018）。

该基准测试由一组模拟网站组成，涉及从基础操作到复杂的多步决策任务，例如发送电子邮件或预订航班。

以往的研究尝试使用多种技术来解决该基准测试：

在线强化学习（RL）方法
- Liu 等（2018）和 Gur 等（2019；2021）使用高层工作流（Liu 等, 2018）或课程学习（curriculum learning）（Gur 等, 2019；2021）作为在线 RL 过程的指导。
- 但是，这些方法需要为每个任务单独设计，因此不具备可扩展性。
监督学习（SL）方法
- Humphreys 等（2022）采用大规模数据集进行监督学习，随后使用 RL 微调。
- Gur 等（2022）结合基于 LLM 的代理进行监督学习。
- 然而，离线监督学习代理通常表现不佳，而在线 RL 需要大量探索经验，虽然在网页导航中至关重要，但在真实网站上难以实施，因为通常没有奖励信号，且交互成本极高。

如附录 I 所示，许多现有方法依赖于基于任务的 DOM 层次结构（Jia 等, 2019；He 等, 2020），以及特定架构来编码依赖关系，例如：

LSTM（Gur 等, 2019；2021），
自注意力机制（Self-Attention）（Liu 等, 2018），
图神经网络（GNN）（Jia 等, 2019）。

此外，现有方法往往使用基于任务的分类输出空间（Humphreys 等, 2022），这些方法无法处理真实世界中的开放式多任务场景，或无法充分利用预训练模型。

与此不同，我们提出了一种新的方法：

取消了这些特定于网页的架构，
将网页导航任务转化为**视觉问答（VQA）**问题，即 文本 + 图像 → 文本。

这种方法使我们能够充分利用预训练基础模型（如 Chung 等, 2022；Dosovitskiy 等, 2020），并即便通过离线训练也能学到强大的网页代理。

附录 B：额外的相关工作

在附录 B中，我们进一步探讨了关于多模态大规模模型和用于决策的基础模型的相关研究。

3 预备知识

我们将自主网页导航建模为确定性序列决策问题，其组成如下：

状态空间（State Space, S）
动作空间（Action Space, A）
确定性状态转移函数（Transition Function, T）: T:S×A→ST: S \times A \rightarrow ST:S×A→S
指令空间（Instruction Space, G）
奖励函数（Reward Function, r）（或基于回合的成功标准）： r:S×G×A→{0,1}r: S \times G \times A \rightarrow \{0,1\}r:S×G×A→{0,1}

在每个时间步 ttt，代理遵循基于先前状态和动作的参数化策略：

π:S×...×St×A×...×At×G→A\pi : S \times ... \times S_t \times A \times ... \times A_t \times G \rightarrow Aπ:S×...×St×A×...×At×G→A

并转换到下一个状态：

st+1=T(st,at)s_{t+1} = T(s_t, a_t)st+1=T(st,at)

该过程持续进行，直到代理达到终止状态（例如点击“提交”按钮）或超过最大时间步数。

如果代理满足给定的指令 ggg（即 r(st,g,at)=1r(s_t, g, a_t) = 1r(st,g,at)=1），则视为成功；如果执行无效操作或到达错误的终止状态，则视为失败。

在自主网页导航中，状态 st∈Ss_t \in Sst∈S 由以下两个部分组成：

网页的原始 HTML（作为文本序列输入），
网页截图（作为图像输入）。

遵循先前的研究（Shi 等, 2017；Liu 等, 2018；Gur 等, 2019；2021），我们假设受限的动作空间，其格式如下：

function(selector, text)\text{function(selector, text)}function(selector, text)

function：包括 "click" 或 "type" 操作，
selector：一个唯一标识网页元素的整数索引，
text：当执行 type 操作时的文本输入。

图 1 展示了 MiniWoB（Shi 等, 2017）环境中的一个示例回合，涉及多步决策过程。代理需要点击正确的发件人电子邮件，并输入正确的接收人地址以转发该电子邮件。MiniWoB 还包括基础的行为任务，如点击按钮或输入文本。

关于 WebShop（Yao 等, 2022a）基准测试的示例，请参阅附录 L。

4 WebGUM

4.1 具有时序和局部感知能力的多模态 Transformer 模型

在本研究中，我们借鉴 Gur 等（2022）的研究，使用 T5（Raffel 等, 2020）作为网页导航的基础架构。

T5 采用编码-解码（encoder-decoder）架构，其双向编码能力非常适合 HTML 的树状结构，
该架构已被证明具有良好的扩展性，能够处理大型文本数据。

为了增强模型的多模态能力，我们将 T5 与 视觉 Transformer（ViT）（Dosovitskiy 等, 2020）结合，如图 2 所示。

具体而言：

视觉 Transformer（ViT）
- 预训练于 ImageNet-21K 分类任务（Deng 等, 2009），
- 将网页截图（图像观察）映射为图像令牌（image tokens）。
T5 编码器
- 统一处理视觉令牌和HTML 令牌，形成一个融合的多模态表示，
- T5 解码器则以文本形式预测网页操作（如“点击”或“输入”）。

有关更详细的实现细节，请参见附录 C。

编码时序和局部视觉令牌

为了让语言模型了解任务的时序信息和局部场景识别，编码器会从历史截图中提取多模态令牌（历史步数 H=2）。

时序视觉令牌：有助于在多步任务中预测一致的动作。
局部视觉令牌：为更好地提取网站局部区域的空间和语义信息，我们的 ViT 对每个图像块（patch）生成一个局部令牌，而不是对整张图像生成一个全局令牌（如 CLS-token）。

具体实现：

将输入图像划分为 16×1616 \times 1616×16 的图像块，得到 14×14（图像块数）×2（时序窗口）=39214 \times 14 \text{（图像块数）} \times 2 \text{（时序窗口）} = 39214×14（图像块数）×2（时序窗口）=392 个视觉令牌。
对 MiniWoB++ 的截图进行裁剪，去掉顶部的黄色指令部分，将图像尺寸调整为 160×160160 \times 160160×160。
使用白色像素填充裁剪后的图像，调整为 224×224224 \times 224224×224（ViT 默认输入大小）。

4.2 指令微调的大语言模型

我们基于 Flan-T5（Chung 等, 2022），一个经过指令微调的 T5，而不是像 Gur 等（2022）那样使用原始预训练的 T5。

Flan-T5 通过大规模的指令跟随任务和多领域的链式推理示例（包括推理和编程任务）进行微调。
鉴于网页导航本质上是一个指令跟随任务，我们假设经过精心微调的指令模型能够很好地泛化，增强与用户指令的对齐能力，以及在网页导航和交互式决策中的零样本推理能力。

此外，这些高性能的指令微调模型可以提高样本效率和下游任务性能，非常适合离线学习。

我们进一步联合微调了 Flan-T5 语言模型和 ViT 视觉编码器（见图 2），使用大量指令跟随的多模态网页导航数据集进行训练（详见第 4.3 节）。

在第 5 节的实验中，我们实证表明，这种指令微调方法显著改善了 HTML 理解、多步推理和决策能力。

4.3 使用语言模型代理的大规模数据收集

基础模型的成功在很大程度上得益于互联网规模的数据（Brown 等, 2020；Radford 等, 2021；Chen 等, 2022；Wang 等, 2023）。尽管大量数据是关键，但在网页导航领域，公开数据集非常有限，例如 MiniWoB++ 只有 12K 个由人类演示的数据（Liu 等, 2018）。

此外，该数据集仅包含 DOM 观察结果，缺乏任何视觉特征，这限制了对网页元素精确空间感知的能力。
因此，需要一个包含网页截图在内的大规模多模态数据集，以构建更强大的导航策略。

为在 MiniWoB++ 上收集大规模的多模态行为数据集，我们使用了 Gur 等（2022） 提出的微调后的 LLM 策略，而不是依赖于人类演示者（Liu 等, 2018；Humphreys 等, 2022）。这种方法显著降低了构建新数据集的成本，同时利用了自主代理的成功经验。

具体过程：

初始数据生成
- 我们为每个任务运行 100 个回合的 LLM 策略，生成 2.8K 个成功的回合数据。
模型微调与扩展
- 使用这个小数据集微调 Flan-T5-XL 模型，并对每个任务运行 10,000 个回合。
额外示范数据收集
- 最后收集了额外的 54K 个演示数据。

这种方法结合了自主代理与大语言模型的能力，大大扩展了现有的多模态网页导航数据集规模。

与 Synapse 代理的结合与数据集扩展

我们将 WebGUM 与 Synapse（Zheng 等, 2023）相结合，后者是一种基于私有大语言模型（LLM）并依赖提示工程的代理，主要用于那些微调 LLM 无法很好完成的任务。

这一方法的努力最终构建了一个多任务数据集，包含 401K（347K + 54K） 个回合，每个步骤均包含 HTML 和网页截图。有关详细信息，请参阅附录 F。

5 结果

我们在 MiniWoB++（Shi 等, 2017；Liu 等, 2018）上对所提出的方法进行了测试，每个任务评估 100 个回合，最终结果取自 Gur 等（2022）提供的 56 个任务的平均成功率。

表 1 结果显示：

WebGUM 在仅使用2.8K 数据集和Base 级别模型（310M 参数）的情况下，显著优于先前所有离线网页导航方法（Humphreys 等, 2022；Gur 等, 2022）。
相比之下，先前的方法使用了 240 万回合或30 亿参数，而 WebGUM 通过更高效的数据和参数利用，达到了更优越的离线性能。

这一成就得益于我们提出的网页导航问题简化，充分利用了时序-局部视觉感知和指令微调 LLM，在网页环境中提供了强大的归纳偏差。

此外，随着数据集和模型规模的扩展，WebGUM 达到了 94.2% 的成功率，相较于先前最优的离线模型 WebN-T5（Gur 等, 2022），提高了45.8%，甚至超过了在线 RL 微调的 SOTA 方法 CC-Net（Humphreys 等, 2022），超出 0.7%，尽管我们采用的是完全离线训练且数据量更少。

其他关键结果：

WebGUM 的性能超越了人类以及最近的基于大语言模型的代理，例如 RCI（Kim 等, 2023）和 AdaPlanner（Sun 等, 2023），甚至在 GPT-4（OpenAI, 2023）的对比下依然表现优异。
任务级别的对比和错误分析（详见附录 G 和 L）表明，在需要记忆能力的复杂推理任务（如猜数字游戏）中，仍存在改进空间。

消融实验与改进来源分析

在接下来的部分，我们将对 WebGUM 进行广泛且精确的消融实验，以明确性能提升的来源。

我们重点关注以下方面：

时序与局部多模态感知能力（第 5.1 节）
- 研究架构、预训练模型对感知能力的贡献。
数据集与模型规模扩展（第 5.2 节）
- 分析如何扩大数据集和模型提高导航性能。
更好的 HTML 理解能力（第 5.3 节）
- 通过指令微调改进网页元素解析能力。
多步推理能力（第 5.4 节）
- 研究指令微调的 LLM 在复杂任务中的效果。
在真实世界任务中的可迁移性（第 5.5 节）
- 证明 WebGUM 能够推广到实际网页自动化任务。

5.1 时序与局部视觉感知在网页导航中的作用

为了验证图像模态的重要性，我们设计了以下三类消融实验：

输入替换（Input Replacement）
- 将真实图像观察替换为纯白图片，
- 或在测试时随机使用 MiniWoB++ 初始状态的截图。
去除视觉感知令牌（Removing Visual Tokens）
- 研究去除视觉输入对性能的影响。
不同预训练 ViT 模型的比较（Employing Different Pre-trained ViT）
- 采用多种预训练权重，包括：
  - ImageNet-21K + AugReg（Steiner 等, 2022），
  - JFT-300M（Sun 等, 2017），
  - JFT-3B（Zhai 等, 2022）。

此外，我们评估了基于以下自监督学习目标的模型：

CLIP（Radford 等, 2021），
MAE（Masked Autoencoder）（He 等, 2021），
DINO（Self-supervised Vision Representation）（Caron 等, 2021）。

在消融实验中，我们微调了Base 级别的模型，以作为更大规模模型的代理，以减少计算成本（Hoffmann 等, 2022）。

这些实验有助于识别 WebGUM 关键改进的来源，并提供有价值的见解，说明如何在网页导航任务中高效利用视觉感知和指令微调的 LLM。

视觉模态对模型性能的影响

在图 3（左）中，使用纯白图像的模型性能与单模态模型相当。这表明图像信息在某些情况下可能不是决定性因素。然而，当模型使用随机截取的网页截图时，性能略优于纯白图像的版本，可能是因为某些随机截图偶然包含了目标任务相关的图像信息。

这些结果证明，WebGUM 通过利用时序和局部视觉感知，成功获得了扎实的视觉和 HTML 理解能力。

在视觉令牌消融实验中，图 4（左）显示，同时结合时序和局部视觉令牌的模型（成功率 66.1%）比仅使用时序令牌（64.2%）或局部令牌（64.0%）的模型表现更好。

此外，与视觉令牌相比，不同预训练 ViT（视觉 Transformer）的影响较小，这进一步突出了我们在多模态网页导航架构设计方面的贡献。

在任务级别的分析中（图 3 右）：

在多步任务（如“预订航班”任务，+50% 成功率提升）或需要视觉上下文理解的任务（如“点击形状”任务，+22% 成功率提升）中，WebGUM 通过视觉输入获得了显著改进（详见附录 G 和 L）。

5.2 数据集和模型规模的扩展效应

本节探讨 WebGUM 数据集和模型规模扩展的重要性，这与语言和视觉领域的研究观察一致（Shoeybi 等, 2019；Kaplan 等, 2020；Rae 等, 2021；Wei 等, 2022b；Chowdhery 等, 2022）。

实验过程：

我们准备了三种不同规模的数据集：
- 2.8K 个示范样本（最小数据集），
- 347K 个示范样本（完整数据集），
- **68K

5.4 交互式决策中的多步推理能力

WebGUM 仅使用 30 亿参数，但由于其一致的推理能力和对用户意图的增强对齐，能够在产品比较过程中进行回溯搜索，并选择最佳选项（详见附录 L）。

这些结果表明，Flan-T5 具备的多步推理能力在下游决策任务中可以作为强大且可迁移的先验知识。

5.5 强大的迁移能力：从模拟环境到真实世界的行动预测

我们进一步验证了 WebGUM 在真实世界问题中的适用性。

我们在 Mind2Web（Deng 等, 2023）上测试了 WebGUM，该数据集包含来自 137 个网站的大约 2000 条真实网页导航指令。

实验过程：

首先，使用在 MiniWoB++ 上微调的 WebGUM（训练于 401K 数据集）。
然后，在 Mind2Web 训练集上进行进一步微调，以适应真实世界任务。

在行动预测任务中，WebGUM 采用以下输入信息：

前 50 个最相关的 HTML 片段，
用户指令，
历史操作记录。

模型的输出包括：

目标元素 ID，
操作类型（如点击、输入），
操作值。

结果（见表 3）：

迁移自 MiniWoB++ 的 WebGUM 在所有评估类别（跨任务、跨网站、跨领域）中，表现均优于 MindAct-Large/XL，甚至超越了 GPT-4。
由于 MindAct 和 WebGUM 均基于 Flan-T5，这些结果进一步支持了 WebGUM 在真实世界任务中的强迁移能力。

6 讨论与局限性

在本文中，我们提出了一种高效且实用的方法，将网页导航简化为离线训练，以充分利用指令微调 LLM 的网页环境归纳偏差。

尽管 WebGUM 在 Mind2Web 上表现出了良好的迁移能力，但我们仍需在未来的工作中扩展多模态基础模型，以实现真实世界网页导航的实际部署（Gur 等, 2023）。

当前工作局限性：

数据规模不足：
- 我们在 MiniWoB++ 上收集并发布了 347K 个多模态专家示范数据，尽管该数据规模已是此前的 38 倍，但仍远未达到支持通用模型所需的互联网规模数据。
- 未来工作应结合迭代数据收集和自动化部署（Ghosh 等, 2021；Matsushima 等, 2021；Li 等, 2022a），以推动更大规模的行为数据采集。
架构适应性：
- 由于我们的框架仅假设以原始 HTML 和截图作为输入，并以文本形式预测可解析的操作，因此可适用于更先进的 LLM或开放场景。
泛化能力：
- 虽然 WebGUM 可以在分布外（OOD）组合任务和扰动任务中展现鲁棒性，但实现真正的人类级泛化，以适应多样化的真实网站和复杂指令，仍是尚待解决的难题。

7 结论

我们提出了 WebGUM（Web navigation via Grounded Understanding Models），这是一种基于指令微调的视觉-语言基础模型，专为网页导航任务而设计。

主要成就：

在 MiniWoB++ 上，WebGUM 将先前离线训练 SOTA 的成功率从 48.4% 提升至 94.2%，实现了显著改进。
详细的消融实验表明，时序和局部视觉令牌能够捕获页面的动态转换和视觉上下文，
指令微调的语言模型显著提升了网页导航性能，主要体现在：
- 更强的 HTML 理解能力，
- 更优秀的多步推理能力。

多步推理能力使 WebGUM 在分布外任务中具有更强的泛化能力，并在 WebShop 上超越了 PaLM-540B。

WebGUM 还在 Mind2Web 的真实世界行动预测任务中展现了强大的正向迁移能力。

此外，我们将现有的 MiniWoB++ 数据集扩展至 347K 多模态专家示范数据，约为原始规模的 38 倍。

未来展望：

我们相信，WebGUM 是迈向更强大、可扩展的自主网页导航模型的重要一步。

大模型GUI系列论文阅读 DAY2续2：《使用指令微调基础模型的多模态网页导航》

摘要自主网页导航的进展一直受到以下因素的阻碍： 依赖于数十亿次的探索性交互（通常采用在线强化学习），依赖于特定领域的模型设计，难以利用丰富的跨领域数据进行泛化。在本研究中，我们探讨了基于视觉-语…...

编程日记 2025/8/1 22:28:18

Docker 搭建mysql 连接超时问题，xxl-job启动mysql连接报错，禁用dns

1.本地连接Navicat报错信息，猜测是navicat默认连接超时导致的，后面换成idea一个插件虽然慢但连接上了 2013 - Lost connection to MySQL server at reading initial communication packet 2.启动xxl-job会报错，网上有人mysql驱动与数据库不匹…...

编程日记 2025/8/1 22:11:06

SSM课设-学生管理系统

【课设者】SSM课设-学生管理系统技术栈: 后端: SpringSpringMVCMybatisMySQLJSP 前端: HtmlCssJavaScriptEasyUIAjax 功能: 学生端: 登陆学生信息管理个人信息管理老师端: 多了教师信息管理管理员端: 多了班级信息管理多了年级信息管理多了系统用户管理...

编程日记 2025/8/1 22:06:32

JavaScript笔记APIs篇03——DOM节点Bom操作本地存储正则表达式

黑马程序员视频地址：黑马程序员前端JavaScript入门到精通全套视频教程https://www.bilibili.com/video/BV1Y84y1L7Nn?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p78https://www.bilibili.com/video/BV1Y84y1L7Nn?…...

编程日记 2025/8/1 22:03:53

JS 有哪些模块化规范

一、CommonJS 规范 1. 主要应用场景主要用于服务器端开发，尤其是 Node.js 环境。 2. 核心思想使用 require() 函数来引入模块，使用 module.exports 或 exports 对象来导出模块中的内容。 // math.js 模块const add (a, b) > a b;const subtr…...

编程日记 2025/8/1 22:02:36

摘录人工智能面试笔试题汇总

一、人工智能面试问答题汇总 1、什么是人工智能？ 人工智能（AI）是一种计算机科学，它增强了像人类一样工作和反应的智能机器。机器模拟人类智能行为的能力。人工智能通常用于各种应用，如决策、语音识别、感知、认知能力…...

编程日记 2025/8/1 22:09:53

【PCIe 总线及设备入门学习专栏 6.1 -- PCIe MCTP】

文章目录 1 什么是 MCTP？2 MCTP 消息在 PCIe 中的传输特点3 PCIe MCTP 的局限性(1) 出站（Outbound）MCTP 消息分解的限制(2) 入站（Inbound）MCTP 消息组装的限制4 MCTP 消息的实际使用流程发送端处理流程接收端处理流程5 实际使用场景例 1：管理命令传输例 2：监控数据报告例…...

编程日记 2025/8/1 14:33:28

RabbitMQ集群安装rabbitmq_delayed_message_exchange

1、单节点安装rabbitmq安装延迟队列安装延迟队列rabbitmq_delayed_message_exchange可以参考这个文章： rabbitmq安装延迟队列-CSDN博客 2、集群安装rabbitmq_delayed_message_exchange 在第二个节点 join_cluster 之后，start_app 就会报错了 (CaseC…...

编程日记 2025/7/29 22:57:45

doris 2.1 Queries Acceleration-Hints 学习笔记

1 Hint Classification 1.1 Leading Hint：Specifies the join order according to the order provided in the leading hint. 1.2 Ordered Hint：A specific type of leading hint that specifies the join order as the original text sequence. 1.3 Distribute Hint：Speci…...

编程日记 2025/8/1 22:11:07

【网络协议】【http】【https】TLS解决了HTTP存在的问题-加密通信+摘要，数字签名+CA证书

【网络协议】【http】【https】TLS解决了HTTP存在的问题-加密通信摘要数字签名CA证书 ps:TLS前期发送的密码套件里面主要就是约定：密钥交换算法，签名算法，对称加密算法，摘要算法 1加密通信一般选择非对称加密交换密钥对称加密…...

编程日记 2025/8/1 21:59:00

某讯一面，感觉问Redis的难度不是很大

前不久，有位朋友去某讯面试，他说被问到了很多关于 Redis 的问题，比如为什么用 Redis 作为 MySQL 的缓存？Redis 中大量 key 集中过期怎么办？如何保证缓存和数据库数据的一致性？我将它们整理出来，…...

编程日记 2025/8/1 22:05:13

【json_object】mysql中json_object函数过长，显示不全

问题：json只显示部分解决： SET GLOBAL group_concat_max_len 1000000; -- 设置为1MB，根据需要调整如果当前在navicat上修改，只有效本次连接和后续会话，重新连接还是会恢复默认值1024 在my.ini配置文件中新增或者修…...

编程日记 2025/8/1 21:55:46

【KOA框架】koa框架基础入门

koa是express的一层封装，语法比express更加简洁。所以有必要了解下koa的相关开发方法。代码实现 package.json {"name": "koapp","version": "1.0.0","main": "index.js","scripts": {&…...

编程日记 2025/8/1 22:09:46

kubernetes 集群 YAML 文件详解

Kubernetes 是一个开源的容器编排平台，用于自动化部署、扩展和管理容器化应用程序。在 Kubernetes 中，YAML 文件扮演着至关重要的角色，因为它们是用来定义资源对象（如 Pods、Deployments、Services 等）的配置文件。正确…...

编程日记 2025/8/1 22:06:33

【STM32G4xx的CAN驱动记录】

STM32G4xx的CAN驱动记录 CAN说明CAN的波特率计算数据测试总结本文主要记录了基于STM32G4xx的CAN接口解析某型号雷达数据遇到的问题及规避方法，CAN总线波特率500Kbps，采样点要求80%附近。注意CAN总线同步段的时间！！！ …...

编程日记 2025/8/1 9:51:24

VSCode下EIDE插件开发STM32

VSCode下STM32开发环境搭建本STM32教程使用vscode的EIDE插件的开发环境，完全免费，有管理代码文件的界面，不需要其它IDE。视频教程见本人的 VSCodeEIDE开发STM32 安装EIDE插件 Embedded IDE 嵌入式IDE 这个插件可以帮我们管理代码文件&am…...

编程日记 2025/8/1 22:23:01

HTML之拜年/跨年APP（改进版）

目录： 一：目录二：效果三：页面分析/开发逻辑 1.页面详细分析： 2.开发逻辑： 四：完整代码（不多废话） index.html部分 app.json部分二：效果三：页面…...

编程日记 2025/8/1 21:59:00

解决 WSL 2 中 Ubuntu 22.04 安装 Docker 后无法启动的问题

问题场景安装Docker后，执行sudo service docker start启动Docker，提示启动成功 rootDev:~# sudo service docker start * Starting Docker: docker [ OK ]执行su…...

编程日记 2025/8/1 20:43:17

Chrome 132 版本新特性

Chrome 132 版本新特性一、Chrome 132 版本浏览器更新 1. 在 iOS 上使用 Google Lens 搜索在 Chrome 132 版本中，开始在所有平台上推出这一功能。 1.1. 更新版本： Chrome 126 在 ChromeOS、Linux、Mac、Windows 上：在 1% 的稳定版用户…...

编程日记 2025/8/1 21:57:34

《贪心算法：原理剖析与典型例题精解》

必刷的贪心算法典型例题！ 算法竞赛（蓝桥杯）贪心算法1——数塔问题-CSDN博客算法竞赛（蓝桥杯）贪心算法2——需要安排几位师傅加工零件-CSDN博客算法（蓝桥杯）贪心算法3——二维数组排序与贪心算…...

编程日记 2025/8/1 21:55:47

CSS笔记基础篇02——浮动、标准流、定位、CSS精灵、字体图标

黑马程序员视频地址： 前端Web开发HTML5CSS3移动web视频教程https://www.bilibili.com/video/BV1kM4y127Li?vd_source0a2d366696f87e241adc64419bf12cab&spm_id_from333.788.videopod.episodes&p70https://www.bilibili.com/video/BV1kM4y127Li?vd_source…...

编程日记 2025/8/1 22:26:15

Golang Gin系列-6：Gin 高级路由及URL参数

在本章中，我们将深入研究使用Gin框架的高级路由和URL参数。我们将介绍如何创建和使用路由组、应用中间件、提取路径参数、处理查询字符串、处理静态文件以及使用HTML模板。路由分组为什么要使用路由组？ 使用路由组有助于保持代码结构整洁有序。当路由…...

编程日记 2025/7/28 8:20:46

重温STM32之环境安装

缩写 CMSIS：common microcontroller software interface standard 1，keil mdk安装链接 Keil Product Downloads 安装好后，开始安装平台软件支持包（keil 5后不在默认支持所有的平台软件开发包，需要自行下载&#…...

编程日记 2025/7/20 14:40:07

web应用引入cookie机制的用途和cookie技术主要包括的内容

web应用引入cookie机制，用于用户跟踪。 （1）HTTP响应报文中的Cookie头行：set-Cookie （2）用户浏览器在本地存储、维护和管理的Cookie文件 （3）HTTP请求报文中的Cookie头行：…...

编程日记 2025/7/30 10:08:17

Visual Studio Code + Stm32 （IAR）

记录一下， 以前看别人在 vsc 下配置 stm32 工程非常麻烦。最近，突然发现， iar 官方出了两个插件， iar build 、 iar C-Spy 安装之后，配置一下 iar 软件路径。然后，直接打开工程目录，编译…...

编程日记 2025/7/29 18:15:27

小程序获取微信运动步数

1、用户点击按钮，在小程序中触发getuserinfo方法，获取用户信息 <scroll-view class"scrollarea" scroll-y type"list"><view class"container"><button bind:tap"getLogin">获取</button&…...

编程日记 2025/7/31 19:47:14

嵌入式Linux驱动开发之platform

关键词：rk3399 嵌入式驱动 Linux platform 前言前面的嵌入式Linux驱动都是描述从特定的SOC与特定设备之间的直接两两通信。而Linux不是为单一某一SOC结构而设计的操作系统，它可以运行在X86、ARM等多种架构多种SOC平台上，如果驱动程序按照S…...

编程日记 2025/7/31 1:35:23

【蓝桥杯】43693.日期问题

题目描述小明正在整理一批历史文献。这些历史文献中出现了很多日期。小明知道这些日期都在 1960 年 1 月 1 日至 2059 年 12 月 31 日。令小明头疼的是，这些日期采用的格式非常不统一，有采用年/月/日的，有采用月/日/年的，还有采用…...

编程日记 2025/7/31 12:40:21

opengrok_windows_多工程的同步

多工程的目录工程代码下载和log配置工程代码下载在每个工程的src目录下，下载工程代码，以下载pulseaudio的代码为例。 git clone gitgithub.com:pulseaudio/pulseaudio.git log配置文件拷贝D:\opengrok\opengrok-…...

编程日记 2025/7/30 5:12:33

Redis的安装和使用--Windows系统

Redis下载地址： windows版本readis下载（GitHub）： https://github.com/tporadowski/redis/releases （推荐使用） https://github.com/MicrosoftArchive/redis/releases 官网下载（无Windows版本…...

编程日记 2025/8/1 5:48:42

【odbc】odbc连接kerberos认证的 hive和spark thriftserver

hive odbc驱动，以下两种都可以教程：使用 ODBC 和 PowerShell 查询 Apache HiveHive ODBC Connector 2.8.0 for Cloudera Enterprise spark thriftserver本质就是披着hiveserver的外壳的spark server 完成kerberos认证: （1）可以…...

编程日记 2025/8/1 18:05:39

亚博microros小车-原生ubuntu支持系列：1 键盘控制

背景：电脑配置不太行，我在ubuntu再运行vmware，里面运行亚博官方的虚拟机镜像ubuntu，系统很卡。基本上8G内存给打满了。还是想把亚博官方的代码迁移出来，之前售后就说除了官方镜像虚拟机，需要自己摸索迁移。…...

编程日记 2025/7/31 12:14:30

【Linux】利用‘shell脚本’快速查看服务的运行情况

一、脚本目的为了方便查看服务的运行情况，特此写了一个shell脚本，这样就很方便获取，查看如nginx、mysql等服务的运行状态、监听端口状态、防火墙、端口开放状态等。二、shell脚本源代码 #!/bin/bash SCRIPTPATH$(cd "$(dirname $0)…...

编程日记 2025/7/29 5:37:37

[2025分类时序异常检测指标R-AUC与VUS]

梳理了一下分类中常见的指标，这些指标与时序异常检测中新提出的A-RUC与VUS之间的关系真正例(True Positive,TP): 被正确识别为正样本的数量。真负例(True Negative,TN): 被正确识别为负样本的数量。假正例(False Positive ,FP): 被错误识为正样本数量假负例(Fals…...

编程日记 2025/7/31 7:39:01

设计模式之结构型模式

在软件开发的世界里，设计模式是前辈们智慧的结晶，它们为我们提供了通用的解决方案来应对各种常见的软件设计问题。今天，我们深入探讨设计模式中的结构型模式，并用 Java 语言来实现它们。什么是结构型模式结构型模式主要关注如…...

编程日记 2025/7/27 17:25:33

Spring Boot中的404错误：原因、影响及处理策略

Spring Boot中的404错误：原因、影响及处理策略在Web开发过程中，404错误是一个常见的HTTP状态码，表示“未找到”资源。在Spring Boot项目中，尽管它以其简化的配置和快速的开发速度著称，但开发者仍可能遇到404错误。本…...

编程日记 2025/7/28 4:23:27

网络协议如何确保数据的安全传输？

网络协议作为计算机网络通信的基石，其设计不仅旨在实现数据的有效传输，更在于确保数据在传输过程中的安全性。对于网络协议如何保障数据安全传输，是很多企业和网络IT部门的重点，本文将从多方面概述相关方法。加密与解密机制 1. …...

编程日记 2025/7/29 13:22:53

Python绘制数据地图-MovingPandas

MovingPandas 是一个用于时空数据分析的 Python 库，它扩展了 Pandas 和 GeoPandas，使得处理和分析带有时间戳的地理数据变得更加方便。虽然 MovingPandas 本身不直接提供数据可视化功能，但你可以结合其他库如 matplotlib、folium 或 plotly 来…...

编程日记 2025/7/28 6:02:32

鸿蒙子组件根据数据，刷新item Ui的规范

鸿蒙子组件列表中，有多个isSelect，父组件只用一个state类型的isSelect，就可以将它们关联起来，如下： isLike:item1.isPraise?!this.isLike:this.isLike, 子组件想要数据变化，UI随着更新，就得…...

编程日记 2025/7/31 1:40:53

使用 Flask 构建视频转 GIF 工具

使用 Flask 构建视频转 GIF 工具在前几日的文章当中，我介绍了如何使用 Python 脚本将视频转化为 GIF 动画，为了更好、更方便的进行操作，在这篇博客中，我将介绍使用 Flask 框架创建一个简单的 Web 应用程序，该应用程序…...

编程日记 2025/7/29 1:34:25

基于SpringBoot+Vue的智慧动物园管理系统的设计与实现

获取源码：基于SpringBootVue智慧动物园系统设计与实现: 后台和用户前台。后台包括首页、员工管理、考勤管理、部门管理、角色管理、审核管理、动物管理、演出管理、园区管理、园区设施维修、饲养管理、行为观察管理、疫苗管理、看护管理、个人中心、票务管理、收入管…...

编程日记 2025/8/1 21:06:48

“深入浅出”系列之数通篇：（5）TCP的三次握手和四次挥手

TCP（传输控制协议）的三次握手和四次挥手是TCP连接建立和释放的过程。一、TCP三次握手 TCP三次握手是为了建立可靠的连接，确保客户端和服务器之间的通信能力。具体过程如下： 第一次握手：客户端向服务器发送一个带有…...

编程日记 2025/7/30 21:51:58

【初阶数据结构】探索数据的多米诺链：单链表

文章目录 1.链表1.1 概念及结构1.2 分类 2.单链表接口实现2.1 单链表节点创建2.2 单链表打印2.3 单链表尾插2.4 单链表头插2.5 单链表尾删2.6 单链表头删2.7单链表查找2.8 单链表在pos位置插入x2.8.1 pos前2.8.2 pos后 2.9单链表在pos位置删除x2.9.1 pos前2.9.2 pos后 2.2.10 单…...

编程日记 2025/7/30 17:12:21

我的创作纪念日——我与CSDN一起走过的365天

目录一、机缘：旅程的开始二、收获：沿路的花朵三、日常：不断前行中四、成就：一点小确幸五、憧憬：梦中的重点一、机缘：旅程的开始最开始开始写博客是在今年一二月份的时候，也就是上一…...

编程日记 2025/8/1 22:21:45

w-form-select 组件中分析自定义属性和 el-select 自带属性的对比表格

以下是该组件中自定义属性和 el-select 自带属性的对比表格： 属性/功能自定义el-select 自带说明label✔️❌自定义属性，用于设置表单项的标签。prop✔️❌自定义属性，用于表单验证时的字段名。labelWidth✔️❌自定义属性，用…...

编程日记 2025/7/31 1:35:36

【蓝桥杯选拔赛真题63】C++奇数第十四届蓝桥杯青少年创意编程大赛算法思维 C++编程选拔赛真题解

目录 C++奇数一、题目要求 1、编程实现 2、输入输出二、算法分析三、程序编写四、运行结果五、考点分析七、推荐资料 C++奇数第十四届蓝桥杯青少年创意编程大赛C++选拔赛真题一、题目要求 1、编程实现给定两个正整数N和M(10≤N<M≤10000)，请找出N到M…...

编程日记 2025/7/29 4:09:36

Android 存储进化：分区存储

} 在写入存储之前，需要知道设备有多少空间可用，不够的话会抛出异常。不过现在的智能设备内存也是比较大的，这部分可以参考Google 查询可用空间 2.1 内部存储空间打开Android studio的 Device File Explorer时，可以看到应用的内部…...

编程日记 2025/7/28 11:07:47

NPM 与 Node.js 版本兼容问题：npm warn cli npm does not support Node.js

问题描述与处理策略 1、问题描述 npm warn cli npm v10.9.2 does not support Node.js v18.16.1. This version of npm supports the following node versions: ^18.17.0 || >20.5.0. You can find the latest version at https://nodejs.org/.# 翻译 npm warn cli npm v1…...

编程日记 2025/7/30 21:14:24

docker离线安装及部署各类中间件（x86系统架构）

前言：此文主要针对需要在x86内网服务器搭建系统的情况一、docker离线安装 1、下载docker镜像 https://download.docker.com/linux/static/stable/x86_64/ 版本：docker-23.0.6.tgz 2、将docker-23.0.6.tgz 文件上传到服务器上面，这里放在…...

编程日记 2025/7/29 10:02:11

redis 分布式方案

文章目录前言一、主从复制1、主从配置2、建立连接3、数据同步3.1、全量同步3.2、全量同步配置3.3、增量同步3.4、增量同步配置二、redis sentinel1、主要功能2、sentinel配置3、高可用3.1、故障发现3.2、故障转移3.2.1、选举sentinel进行故障转移3.2.2、选举从节点升级成主…...

编程日记 2025/8/1 8:27:38

摘要