# LLM Content Extractor 一个 Chrome 浏览器扩展,用于截取网页内容并转换为大模型友好的格式。 ## 功能特性 - 🎯 **区域框选提取** - 拖拽鼠标框选想要提取的区域 - 📄 **整页提取** - 一键提取整个页面内容 - 📝 **多种输出格式** - 支持 Markdown、JSON、XML - 📋 **自动复制** - 提取后自动复制到剪贴板 - 💾 **历史记录** - 可随时复制上次提取的内容 ## 支持提取的内容类型 - 标题 (h1-h6) - 段落 - 代码块(保留语言标识) - 有序/无序列表 - 表格 - 图片(保留 src 和 alt) - 链接(保留文本和 href) ## 安装方法 1. 打开 Chrome 浏览器,访问 `chrome://extensions/` 2. 开启右上角的 **开发者模式** 3. 点击 **加载已解压的扩展程序** 4. 选择 `browser-extension` 文件夹 ## 使用方法 1. 点击浏览器工具栏中的扩展图标 2. 选择输出格式(Markdown/JSON/XML) 3. 点击 **框选区域提取** 或 **提取整页内容** 4. 如果是框选模式,拖拽鼠标选择区域 5. 提取完成后内容自动复制到剪贴板 ## 快捷操作 - **ESC** - 取消框选模式 ## 输出示例 ### Markdown 格式 ```markdown # 标题 这是一段文字内容。 - 列表项 1 - 列表项 2 | 表头1 | 表头2 | | --- | --- | | 数据1 | 数据2 | ``` ### JSON 格式 ```json [ { "type": "heading", "level": 1, "content": "标题" }, { "type": "paragraph", "content": "这是一段文字内容。" } ] ``` ## 注意事项 - 首次使用需要刷新页面才能生效 - 某些页面可能因安全策略限制而无法使用 - 图标文件需要自行添加(16x16, 48x48, 128x128 PNG) ## 开发 ```bash # 项目结构 browser-extension/ ├── manifest.json # 扩展配置 ├── popup.html # 弹出窗口 ├── popup.js # 弹出窗口逻辑 ├── content.js # 内容脚本 ├── content.css # 内容脚本样式 └── icons/ # 图标文件夹 ``` ## License MIT