跳转到主要内容
somark-document-parser 是一个 AI Agent Skill,让 Claude Code、Cursor、Cline、OpenCode 及 40+ 其他 AI 编程助手能够直接理解 PDF、图片、Word、PPT 等文档——不只是识别文字,而是完整还原标题层级、表格、公式和排版结构。
1

安装

npx skills add https://github.com/SoMarkAI/somark-document-parser
兼容 Claude Code、Cursor、Cline、OpenCode 及 40+ 其他 AI 编程助手
2

配置 API Key

前往 somark.tech 获取 API Key,然后设置环境变量:
export SOMARK_API_KEY=sk-your-api-key
也可以在 Agent 设置中配置。首次使用时,Skill 会自动引导你完成配置。
SoMark 提供免费解析额度(每日 500 页、每月 10000 页),会自动发放到账户,超出后系统会自动改为消耗付费用量。
3

使用

直接向你的 AI 编程助手发送自然语言指令,它会自动调用 SoMark 解析文档:
  • “帮我解析这个 PDF”
  • “提取合同中的关键条款”
  • “总结这篇论文的主要内容”
  • “把这个文档转成 Markdown”
  • “这张图片里写了什么”

支持的文件格式

类型格式
文档PDF, DOC, DOCX, PPT, PPTX
图片PNG, JPG, JPEG, BMP, TIFF, WEBP, HEIC, HEIF, GIF

为什么用 SoMark

大多数 AI 助手处理文档时效果不理想,因为原始 PDF / 图片数据会丢失结构信息。SoMark 完整保留:
  • 标题层级 — AI 能准确理解文档章节
  • 表格 — 完整还原,不变成散乱文字
  • 公式与图表 — 转为 LaTeX 或精准描述
  • 多栏排版 — 阅读顺序完整保留
效果:AI 给出准确、有据可查的回答,而不是从乱码文本中”脑补”。

使用限制

限制项上限
单文件大小200 MB
单文件页数300 页
账号 QPS1