Chrome系列8：如何有效解析Web页面内容让AI分析

Posted 2026-03-7 Updated 2026-03- 7

By boommanpro

42~54 min read

一、方案一：基于DOM树筛选的分层预处理方案

1.1 核心设计思路

以前端DOM树为基础，按“元素重要性分层筛选+冗余内容剔除”的思路，优先保留与业务需求、AI分析目标相关的前端元素，剔除无意义冗余标签和内容，同时提取元素关键属性，形成结构化数据，降低上下文占用量。

1.2 具体实施步骤

1.2.1 预处理策略（分层筛选）

定义元素优先级分层：结合AI分析场景（如页面结构识别、交互逻辑分析、内容提取等），将DOM元素分为3个优先级，仅保留前2级元素：
一级优先级（必保留）：核心业务元素（如按钮、输入框、表单、导航栏、核心内容容器）、带语义化标签的元素（<header>、<main>、<section>、<footer>、<button>等）；
二级优先级（按需保留）：辅助交互元素（如提示文本、图标容器、分页控件），可根据AI分析需求灵活开关；
三级优先级（直接剔除）：冗余装饰元素（如空标签、纯样式标签<style>、<script>（非交互相关）、隐藏元素（display:none、visibility:hidden）、重复冗余的嵌套标签）。
DOM树遍历与筛选：通过前端JS（如document.querySelectorAll、TreeWalker API）遍历整个DOM树，根据优先级规则，剔除三级优先级元素，保留前两级元素，形成精简后的DOM子树。
冗余内容压缩：对保留的元素，剔除无意义内容（如空白字符、重复文本、默认占位符），对长文本内容（如页面说明、详情文本）进行截断处理（可配置截断长度，默认保留前200字符，添加“...”标识）。

1.2.2 信息提取规则

针对保留的DOM元素，提取以下关键信息（避免提取完整标签内容，仅保留核心特征）：

元素基础信息：标签名（如button、input）、id、class（仅保留与样式/交互相关的核心类名，剔除冗余类名）；
交互相关信息：按钮/链接的文本内容、点击事件绑定标识（如onClick对应的函数名，不提取完整函数体）、输入框的type、placeholder、value（非敏感内容）；
结构相关信息：元素层级关系（父元素标签名、子元素数量）、位置信息（简单描述，如“顶部导航栏”“表单右侧按钮”，不提取具体坐标）；
内容相关信息：核心文本内容（如标题、正文摘要）、图片的alt属性（替代图片本身，避免传递图片二进制数据）。

1.2.3 数据格式优化

将提取的信息转换为JSON结构化格式，摒弃HTML标签嵌套结构，采用“层级化+键值对”形式，减少格式冗余，示例如下：

{
  "pageStructure": "首页-登录模块",
  "elements": [
    {
      "tag": "div",
      "id": "login-container",
      "role": "容器",
      "children": [
        {
          "tag": "input",
          "id": "username",
          "type": "text",
          "placeholder": "请输入用户名",
          "priority": 1
        },
        {
          "tag": "button",
          "id": "login-btn",
          "text": "登录",
          "event": "handleLogin",
          "priority": 1
        }
      ]
    }
  ]
}

1.2.4 上下文管理机制

动态阈值适配：根据所使用大模型的上下文窗口大小（如GPT-4 8k、32k），配置预处理后数据的最大字符数阈值，超出阈值时，优先剔除二级优先级元素，若仍超出，则对一级优先级元素的文本内容进一步截断；
分块传递（可选）：若页面核心元素较多，单块数据仍超出阈值，将预处理后的JSON数据按“模块拆分”（如登录模块、导航模块、内容模块），分多次传递给AI，同时在每次传递时添加模块标识，确保AI能关联各模块上下文；
缓存机制：对同一页面的预处理结果进行本地缓存（如localStorage），若后续AI分析需重复使用该页面信息，直接调用缓存数据，避免重复预处理，提升效率。

1.3 方案优缺点分析

优点

针对性强：基于DOM树分层，能精准保留核心元素，剔除无效冗余，预处理后数据冗余度极低；
易落地：仅依赖前端原生API（TreeWalker、querySelectorAll），无需引入第三方依赖，开发成本低；
灵活可调：优先级规则、截断长度、阈值等均可根据AI分析场景和模型上下文限制灵活配置；
结构化清晰：JSON格式便于AI解析，能快速识别元素的层级、属性和功能，提升分析效率。

缺点

依赖人工配置：优先级规则需要结合具体业务场景人工定义，若场景变更，需重新调整规则；
可能丢失隐性信息：若某些非核心元素（三级优先级）包含隐性交互逻辑，可能被误剔除，影响AI对页面完整逻辑的分析；
文本截断风险：长文本截断可能导致AI无法获取完整内容，影响内容类分析场景（如页面详情总结）。

二、方案二：基于语义提取的智能预处理方案

2.1 核心设计思路

引入轻量级语义分析工具（前端可运行的NLP库），结合AI分析目标，智能识别前端元素的“语义价值”，自动提取与分析目标相关的信息，过滤无语义价值的冗余内容，同时通过语义聚合，压缩信息体积，无需人工配置优先级。

2.2 具体实施步骤

2.2.1 预处理策略（语义筛选）

引入轻量级NLP工具：前端集成可本地运行的NLP库（如Natural、compromise，体积小、无后端依赖），用于语义识别和关键词提取；
定义AI分析目标语义库：根据AI的具体分析需求（如“识别页面交互按钮”“提取页面核心内容”“分析表单结构”），预设语义关键词库（如交互类：按钮、点击、提交、输入；内容类：标题、正文、详情、说明）；
语义遍历与筛选：遍历DOM树，对每个元素的标签名、文本内容、属性进行语义分析，判断是否与目标语义库匹配，匹配成功则保留，不匹配则剔除；
语义聚合压缩：对保留的元素，将相同语义的元素进行聚合（如多个“提交按钮”聚合为“提交按钮组”），提取共性信息（如标签名、功能），减少重复描述；对长文本进行语义摘要（通过NLP库提取核心句子，替代完整文本）。

2.2.2 信息提取规则

基于语义匹配结果，自动提取以下关键信息，无需人工定义优先级：

语义核心信息：元素与AI分析目标匹配的语义关键词（如“交互-提交按钮”“内容-首页标题”）；
元素关键属性：仅提取与语义相关的属性（如交互元素提取event、text，内容元素提取text、alt），无关属性（如style、无关class）自动剔除；
语义关联信息：元素之间的语义关联（如“登录按钮”与“用户名输入框”的关联的关系，标注为“配套交互元素”）；
核心内容摘要：通过NLP工具对长文本内容进行摘要提取，保留3-5句核心句子，替代完整文本。

2.2.3 数据格式优化

采用“语义分类+结构化”格式，将提取的信息按语义类型分组，使用简洁的键值对和数组，减少冗余，同时添加语义标签，便于AI快速识别，示例如下：

{
  "analysisTarget": "页面交互元素分析",
  "semanticGroups": [
    {
      "semanticTag": "交互-提交按钮",
      "elements": [
        {
          "tag": "button",
          "text": "登录",
          "event": "handleLogin",
          "relatedElements": ["username-input", "password-input"]
        },
        {
          "tag": "button",
          "text": "注册",
          "event": "handleRegister"
        }
      ]
    },
    {
      "semanticTag": "交互-输入框",
      "elements": [
        {
          "tag": "input",
          "id": "username-input",
          "type": "text",
          "placeholder": "请输入用户名"
        }
      ]
    }
  ]
}

2.2.4 上下文管理机制

语义阈值动态调整：根据模型上下文窗口大小，动态调整语义摘要长度、元素聚合粒度（阈值较小时，增加聚合力度，减少信息体积）；
优先级自动适配：若数据超出阈值，自动降低次要语义元素的信息粒度（如仅保留核心属性，剔除关联信息），优先保留与分析目标最相关的核心语义元素，避免核心信息丢失；
语义缓存与更新：缓存页面语义分析结果，若页面内容更新（如元素文本、属性变化），通过NLP工具重新识别语义变化，仅更新变化部分，无需重新进行全量预处理，提升效率；
多轮交互适配：支持AI多轮追问，当AI需要补充某类语义信息时，仅针对性提取该类语义元素的详细信息，无需再次传递全量预处理数据，节省上下文空间。

2.3 方案优缺点分析

优点

智能化程度高：无需人工配置优先级，通过语义分析自动筛选核心信息，适配多场景AI分析需求，减少人工维护成本；
信息完整性优：通过语义聚合和摘要，既压缩内容体积，又避免长文本截断导致的信息丢失，适合内容类、交互类分析场景；
语义关联清晰：标注元素之间的语义关联，便于AI理解页面交互逻辑和内容结构，提升分析准确性；
场景适配性强：可通过调整语义库，快速适配不同AI分析目标（如从“交互分析”切换为“内容提取”），无需大幅修改代码。

缺点

依赖第三方NLP库：需引入前端NLP工具，增加项目体积，部分轻量级库的语义识别精度可能不足，影响筛选准确性；
性能消耗较高：语义分析和摘要提取需占用前端计算资源，在复杂页面（如大量文本、多元素）中，预处理速度可能变慢；
语义库维护成本：需根据AI分析场景更新语义关键词库，若场景过于复杂，语义匹配规则可能需要不断优化。

三、方案三：Agent Browser 专属数据处理方案（核心方案）

3.1 核心设计思路

结合Agent Browser“AI智能体+浏览器”的融合特性，以“端到端任务执行为核心”，整合DOM筛选、语义提取、动态适配三大能力，实现“页面解析-信息提取-格式优化-上下文适配”全流程自动化，兼顾数据精简性、AI可解析性和任务执行适配性，专门解决Agent Browser与大模型交互时的上下文限制问题，同时适配Agent自主任务执行需求。

核心差异化：不同于前两种通用方案，本方案深度贴合Agent Browser的“自主交互、多任务协同、动态反馈”特性，不仅解决“内容超出上下文”问题，还能为Agent的自主操作（如点击、表单填写）提供精准的元素信息支撑，实现“预处理数据→Agent执行→AI分析”的闭环。

3.2 具体实施步骤（Agent Browser 专属）

3.2.1 预处理策略（DOM+语义双驱动筛选）

融合方案一的DOM分层筛选和方案二的语义提取优势，针对Agent Browser的任务执行需求，实现“冗余剔除更彻底、关键信息更精准”：

任务目标精准定位：先通过Agent的任务指令（如“筛选商品并加入购物车”“填写表单并提交”），明确AI分析和Agent执行的核心目标，自动生成“任务相关元素清单”（如购物车按钮、商品价格标签、表单输入框）；
双驱动筛选：
1. DOM层筛选：优先剔除与任务目标无关的冗余元素（如广告、装饰性图片、无关导航），保留任务相关的核心元素（按方案一的优先级规则，自动将任务相关元素设为一级优先级）；
2. 语义层验证：通过轻量级NLP工具，验证保留元素的语义与任务目标的匹配度，剔除语义无关的误保留元素（如任务为“购物”时，剔除“帮助中心”相关元素），同时标注元素的“任务角色”（如“商品选择按钮”“数量输入框”）；
动态冗余压缩：
1. 元素级压缩：对保留的元素，仅保留与Agent执行、AI分析相关的属性，剔除所有无关属性（如style、冗余class、非交互相关的事件）；
2. 文本级压缩：长文本（如商品描述、表单说明）采用“语义摘要+关键信息提取”结合，既保留核心内容（如商品价格、规格），又压缩文本体积；对Agent执行无关的长文本，直接提取关键关键词，替代完整文本；
3. 重复元素聚合：对相同任务角色的重复元素（如多个商品卡片），聚合为元素组，提取共性信息（如标签名、通用属性），仅保留差异化信息（如商品ID、价格），减少重复描述。

3.2.2 信息提取规则（适配Agent Browser 自主执行）

在方案一、二的基础上，新增Agent执行所需的关键信息，确保提取的信息既能满足AI分析，又能支撑Agent自主操作，提取规则如下：

基础核心信息：标签名、id、唯一标识（确保Agent能精准定位元素，避免操作错误）、任务角色（标注元素与任务的关联，如“购物车提交按钮”“用户名输入框”）；
交互执行信息（Agent专属）：元素可操作状态（如是否可点击、是否禁用）、操作方式（如click、input、select）、操作触发条件（如是否需要先填写前置输入框）、关联操作元素（如“提交按钮”关联“确认密码输入框”）；
内容关键信息：与任务相关的核心文本、数值（如商品价格、表单必填项提示）、图片alt属性，无需提取无关内容；
上下文关联信息：元素的页面位置（简单描述，如“商品列表第3项”“表单底部”）、层级关系（确保Agent能正确识别元素嵌套逻辑，避免误操作）。

3.2.3 数据格式优化（Agent与AI双适配）

采用“任务导向+结构化”格式，兼顾AI解析效率和Agent执行便捷性，格式简洁、冗余极低，同时添加Agent执行所需的标识，示例如下（以“商品加购”任务为例）：

{
  "agentTask": "商品筛选并加入购物车",
  "pageInfo": "商品列表页",
  "taskElements": [
    {
      "taskRole": "商品筛选框",
      "tag": "input",
      "id": "search-input",
      "type": "text",
      "operable": true,
      "operation": "input",
      "placeholder": "请输入商品关键词"
    },
    {
      "taskRole": "商品项",
      "tag": "div",
      "id": "product-item-3",
      "operable": true,
      "operation": "click",
      "relatedElements": ["add-cart-btn-3"],
      "content": {
        "name": "XX显卡",
        "price": "2999元",
        "score": "4.9"
      }
    },
    {
      "taskRole": "加购按钮",
      "tag": "button",
      "id": "add-cart-btn-3",
      "operable": true,
      "operation": "click",
      "preCondition": "商品项已选中"
    }
  ]
}

格式优势：结构清晰，AI可快速识别任务目标和元素关联，Agent可直接读取“operable”“operation”“preCondition”等字段，自主执行操作，无需额外解析处理。

3.2.4 上下文管理机制（Agent Browser 动态适配）

针对Agent Browser的多任务协同、动态执行特性，设计灵活的上下文管理机制，解决大模型上下文限制，同时适配Agent的实时操作反馈：

任务分块预处理：根据Agent的任务拆解结果（如“筛选商品→点击商品→加入购物车”），将页面数据按任务步骤分块预处理，每块数据仅包含当前步骤所需的元素信息，分批次传递给大模型，避免单块数据超出上下文限制；
动态上下文调整：
1. 阈值适配：实时获取大模型的上下文剩余空间，动态调整预处理数据的粒度（剩余空间不足时，进一步压缩元素属性、简化文本摘要）；
2. 按需补充：当Agent执行过程中，AI需要补充某类元素信息（如商品规格），仅针对性提取该类信息，无需传递全量数据，节省上下文空间；
缓存与更新机制：
1. 任务级缓存：对同一任务的预处理结果进行缓存，若Agent重复执行相同任务（如重新筛选同类型商品），直接调用缓存数据，提升效率；
2. 实时更新：当页面内容变化（如商品价格更新、元素位置调整），Agent触发页面重新解析，仅更新变化的元素信息，无需全量预处理，确保数据准确性；
多任务上下文隔离：当Agent同时执行多个任务（如同时处理两个页面的表单），对不同任务的预处理数据进行隔离，分别传递给大模型，避免上下文混淆，同时标注任务标识，便于AI区分。

3.3 方案优缺点分析（Agent Browser 专属）

优点

精准适配Agent Browser：深度贴合Agent自主执行、多任务协同的特性，提取的信息既满足AI分析，又能直接支撑Agent操作，实现“预处理-执行-分析”闭环；
上下文控制精准：分块预处理、动态粒度调整、按需补充等机制，能有效控制数据体积，完美解决大模型上下文限制问题，执行效率高于前两种方案；
冗余度最低：双驱动筛选+针对性压缩，仅保留与任务相关的核心信息，预处理后数据体积较方案一减少30%以上，较方案二减少20%以上；
灵活性强：支持任务动态调整，页面内容更新时可实时更新预处理数据，适配Agent Browser的动态执行需求，场景覆盖更全面（如购物、表单、调研等多类Agent任务）。

缺点

开发复杂度高：需结合Agent Browser的任务拆解、自主执行逻辑，整合DOM筛选、语义提取等能力，开发成本高于前两种方案；
依赖Agent任务指令：预处理的精准度依赖Agent对任务目标的定位，若任务指令模糊，可能导致筛选偏差，影响Agent执行和AI分析；
兼容性要求高：需适配不同浏览器环境和Agent执行逻辑，对前端兼容性（如TreeWalker API、NLP库兼容性）要求较高，需额外做兼容处理。

四、三大方案对比与选择建议

对比维度	方案一（DOM分层筛选）	方案二（语义提取）	方案三（Agent Browser 专属）
核心优势	易落地、开发成本低、冗余度低	智能化高、信息完整、场景适配性强	适配Agent执行、上下文控制精准、闭环高效
核心缺点	依赖人工配置、可能丢失隐性信息	性能消耗高、依赖NLP库	开发复杂、依赖Agent任务指令
上下文控制能力	一般（静态阈值）	较好（语义动态调整）	优秀（分块+动态适配）
适配场景	简单场景、固定需求（如单一表单分析）	复杂场景、多分析目标（如内容+交互分析）	Agent Browser 专属场景（自主任务执行）
开发成本	低	中	高

编程分享, 个人常用, 算法记录

Tampermonkey 插件开发前端开发