LLM Content Extractor
一个 Chrome 浏览器扩展,用于截取网页内容并转换为大模型友好的格式。
功能特性
- 🎯 区域框选提取 - 拖拽鼠标框选想要提取的区域
- 📄 整页提取 - 一键提取整个页面内容
- 📝 多种输出格式 - 支持 Markdown、JSON、XML
- 📋 自动复制 - 提取后自动复制到剪贴板
- 💾 历史记录 - 可随时复制上次提取的内容
支持提取的内容类型
- 标题 (h1-h6)
- 段落
- 代码块(保留语言标识)
- 有序/无序列表
- 表格
- 图片(保留 src 和 alt)
- 链接(保留文本和 href)
安装方法
- 打开 Chrome 浏览器,访问
chrome://extensions/ - 开启右上角的 开发者模式
- 点击 加载已解压的扩展程序
- 选择
browser-extension文件夹
使用方法
- 点击浏览器工具栏中的扩展图标
- 选择输出格式(Markdown/JSON/XML)
- 点击 框选区域提取 或 提取整页内容
- 如果是框选模式,拖拽鼠标选择区域
- 提取完成后内容自动复制到剪贴板
快捷操作
- ESC - 取消框选模式
输出示例
Markdown 格式
# 标题
这是一段文字内容。
- 列表项 1
- 列表项 2
| 表头1 | 表头2 |
| --- | --- |
| 数据1 | 数据2 |
JSON 格式
[
{
"type": "heading",
"level": 1,
"content": "标题"
},
{
"type": "paragraph",
"content": "这是一段文字内容。"
}
]
注意事项
- 首次使用需要刷新页面才能生效
- 某些页面可能因安全策略限制而无法使用
- 图标文件需要自行添加(16x16, 48x48, 128x128 PNG)
开发
# 项目结构
browser-extension/
├── manifest.json # 扩展配置
├── popup.html # 弹出窗口
├── popup.js # 弹出窗口逻辑
├── content.js # 内容脚本
├── content.css # 内容脚本样式
└── icons/ # 图标文件夹
License
MIT