- Fixed truncated content.js file causing syntax error and missing logic - Updated manifest.json to use Command+Shift+X for Mac shortcut - Updated documentation
109 lines
2.8 KiB
Markdown
109 lines
2.8 KiB
Markdown
# LLM Content Extractor
|
||
|
||
一个 Chrome 浏览器扩展,用于截取网页内容并转换为大模型友好的格式。
|
||
|
||
## 功能特性
|
||
|
||
- 🎯 **区域框选提取** - 拖拽鼠标框选想要提取的区域
|
||
- 🔍 **元素智能识别** - 快捷键激活,自动识别并高亮网页元素,点击即可提取
|
||
- 📄 **整页提取** - 一键提取整个页面内容
|
||
- 📝 **多种输出格式** - 支持 Markdown、JSON、XML
|
||
- 📋 **自动复制** - 提取后自动复制到剪贴板
|
||
- 💾 **历史记录** - 可随时复制上次提取的内容
|
||
|
||
## 支持提取的内容类型
|
||
|
||
- 标题 (h1-h6)
|
||
- 段落
|
||
- 代码块(保留语言标识)
|
||
- 有序/无序列表
|
||
- 表格
|
||
- 图片(保留 src 和 alt)
|
||
- 链接(保留文本和 href)
|
||
|
||
## 安装方法
|
||
|
||
1. 打开 Chrome 浏览器,访问 `chrome://extensions/`
|
||
2. 开启右上角的 **开发者模式**
|
||
3. 点击 **加载已解压的扩展程序**
|
||
4. 选择 `browser-extension` 文件夹
|
||
|
||
## 使用方法
|
||
|
||
1. 点击浏览器工具栏中的扩展图标
|
||
2. **选择输出格式:**
|
||
- **Markdown 格式** (默认)
|
||
- **JSON 结构化**
|
||
- **XML 格式**
|
||
- **ZIP (Markdown + 图)** - *自动下载包含本地图片的压缩包*
|
||
3. 点击 **框选区域提取** 或 **提取整页内容**
|
||
- 如果选择了 ZIP 格式,点击这两个按钮将直接触发打包下载
|
||
4. 如果是框选模式,拖拽鼠标选择区域
|
||
5. 提取完成后内容自动复制到剪贴板 (ZIP 格式除外)
|
||
|
||
**智能元素提取模式:**
|
||
1. 按下快捷键(默认 `Alt+Shift+X` / Mac: `Option+Shift+X`)
|
||
2. 移动鼠标,扩展会自动高亮当前的 HTML 元素
|
||
3. 点击高亮的元素即可提取该区域内容
|
||
- *提示:如果在插件弹窗中选择了 ZIP 格式,点击元素将下载该元素的 ZIP 包*
|
||
|
||
## 快捷操作
|
||
|
||
- **Alt+Shift+X** (Windows/Linux)
|
||
- **Command+Shift+X** (Mac) - 开启/关闭元素智能识别模式
|
||
- **ESC** - 取消选择模式
|
||
|
||
## 输出示例
|
||
|
||
### Markdown 格式
|
||
```markdown
|
||
# 标题
|
||
|
||
这是一段文字内容。
|
||
|
||
- 列表项 1
|
||
- 列表项 2
|
||
|
||
| 表头1 | 表头2 |
|
||
| --- | --- |
|
||
| 数据1 | 数据2 |
|
||
```
|
||
|
||
### JSON 格式
|
||
```json
|
||
[
|
||
{
|
||
"type": "heading",
|
||
"level": 1,
|
||
"content": "标题"
|
||
},
|
||
{
|
||
"type": "paragraph",
|
||
"content": "这是一段文字内容。"
|
||
}
|
||
]
|
||
```
|
||
|
||
## 注意事项
|
||
|
||
- 首次使用需要刷新页面才能生效
|
||
- 某些页面可能因安全策略限制而无法使用
|
||
- 图标文件需要自行添加(16x16, 48x48, 128x128 PNG)
|
||
|
||
## 开发
|
||
|
||
```bash
|
||
# 项目结构
|
||
browser-extension/
|
||
├── manifest.json # 扩展配置
|
||
├── popup.html # 弹出窗口
|
||
├── popup.js # 弹出窗口逻辑
|
||
├── content.js # 内容脚本
|
||
├── content.css # 内容脚本样式
|
||
└── icons/ # 图标文件夹
|
||
```
|
||
|
||
## License
|
||
|
||
MIT
|