Files
web2mcp/docs/EXTENSION.md
empty 6b73565918 fix: content script truncation error and mac shortcut issue
- Fixed truncated content.js file causing syntax error and missing logic
- Updated manifest.json to use Command+Shift+X for Mac shortcut
- Updated documentation
2025-12-03 22:11:57 +08:00

2.8 KiB
Raw Blame History

LLM Content Extractor

一个 Chrome 浏览器扩展,用于截取网页内容并转换为大模型友好的格式。

功能特性

  • 🎯 区域框选提取 - 拖拽鼠标框选想要提取的区域
  • 🔍 元素智能识别 - 快捷键激活,自动识别并高亮网页元素,点击即可提取
  • 📄 整页提取 - 一键提取整个页面内容
  • 📝 多种输出格式 - 支持 Markdown、JSON、XML
  • 📋 自动复制 - 提取后自动复制到剪贴板
  • 💾 历史记录 - 可随时复制上次提取的内容

支持提取的内容类型

  • 标题 (h1-h6)
  • 段落
  • 代码块(保留语言标识)
  • 有序/无序列表
  • 表格
  • 图片(保留 src 和 alt
  • 链接(保留文本和 href

安装方法

  1. 打开 Chrome 浏览器,访问 chrome://extensions/
  2. 开启右上角的 开发者模式
  3. 点击 加载已解压的扩展程序
  4. 选择 browser-extension 文件夹

使用方法

  1. 点击浏览器工具栏中的扩展图标
  2. 选择输出格式:
    • Markdown 格式 (默认)
    • JSON 结构化
    • XML 格式
    • ZIP (Markdown + 图) - 自动下载包含本地图片的压缩包
  3. 点击 框选区域提取提取整页内容
    • 如果选择了 ZIP 格式,点击这两个按钮将直接触发打包下载
  4. 如果是框选模式,拖拽鼠标选择区域
  5. 提取完成后内容自动复制到剪贴板 (ZIP 格式除外)

智能元素提取模式:

  1. 按下快捷键(默认 Alt+Shift+X / Mac: Option+Shift+X
  2. 移动鼠标,扩展会自动高亮当前的 HTML 元素
  3. 点击高亮的元素即可提取该区域内容
    • 提示:如果在插件弹窗中选择了 ZIP 格式,点击元素将下载该元素的 ZIP 包

快捷操作

  • Alt+Shift+X (Windows/Linux)
  • Command+Shift+X (Mac) - 开启/关闭元素智能识别模式
  • ESC - 取消选择模式

输出示例

Markdown 格式

# 标题

这是一段文字内容。

- 列表项 1
- 列表项 2

| 表头1 | 表头2 |
| --- | --- |
| 数据1 | 数据2 |

JSON 格式

[
  {
    "type": "heading",
    "level": 1,
    "content": "标题"
  },
  {
    "type": "paragraph",
    "content": "这是一段文字内容。"
  }
]

注意事项

  • 首次使用需要刷新页面才能生效
  • 某些页面可能因安全策略限制而无法使用
  • 图标文件需要自行添加16x16, 48x48, 128x128 PNG

开发

# 项目结构
browser-extension/
├── manifest.json    # 扩展配置
├── popup.html       # 弹出窗口
├── popup.js         # 弹出窗口逻辑
├── content.js       # 内容脚本
├── content.css      # 内容脚本样式
└── icons/           # 图标文件夹

License

MIT