web2mcp/browser-extension/README.md

# LLM Content Extractor

一个 Chrome 浏览器扩展，用于截取网页内容并转换为大模型友好的格式。

## 功能特性

- 🎯 **区域框选提取** - 拖拽鼠标框选想要提取的区域
- 📄 **整页提取** - 一键提取整个页面内容
- 📝 **多种输出格式** - 支持 Markdown、JSON、XML
- 📋 **自动复制** - 提取后自动复制到剪贴板
- 💾 **历史记录** - 可随时复制上次提取的内容

## 支持提取的内容类型

- 标题 (h1-h6)
- 段落
- 代码块（保留语言标识）
- 有序/无序列表
- 表格
- 图片（保留 src 和 alt）
- 链接（保留文本和 href）

## 安装方法

1. 打开 Chrome 浏览器，访问 `chrome://extensions/`
2. 开启右上角的 **开发者模式**
3. 点击 **加载已解压的扩展程序**
4. 选择 `browser-extension` 文件夹

## 使用方法

1. 点击浏览器工具栏中的扩展图标
2. 选择输出格式（Markdown/JSON/XML）
3. 点击 **框选区域提取** 或 **提取整页内容**
4. 如果是框选模式，拖拽鼠标选择区域
5. 提取完成后内容自动复制到剪贴板

## 快捷操作

- **ESC** - 取消框选模式

## 输出示例

### Markdown 格式
```markdown
# 标题

这是一段文字内容。

- 列表项 1
- 列表项 2

| 表头1 | 表头2 |
| --- | --- |
| 数据1 | 数据2 |
```

### JSON 格式
```json
[
  {
    "type": "heading",
    "level": 1,
    "content": "标题"
  },
  {
    "type": "paragraph",
    "content": "这是一段文字内容。"
  }
]
```

## 注意事项

- 首次使用需要刷新页面才能生效
- 某些页面可能因安全策略限制而无法使用
- 图标文件需要自行添加（16x16, 48x48, 128x128 PNG）

## 开发

```bash
# 项目结构
browser-extension/
├── manifest.json    # 扩展配置
├── popup.html       # 弹出窗口
├── popup.js         # 弹出窗口逻辑
├── content.js       # 内容脚本
├── content.css      # 内容脚本样式
└── icons/           # 图标文件夹
```

## License

MIT