安装并配置插件
配置插件参数
安装完成后进入插件配置页面:
- API Base URL:默认为
https://somark.tech/api/v1,通常无需修改。 - API Key:输入您的 SoMark API Key。
还没有 API Key?前往 SoMark API 工作台获取 API Key。免费额度无需领取,会自动发放到账户(每日 500 页、每月 2000 页)。
在工作流中使用 SoMark 插件
配置输入变量
点击输入框中的变量图标 
{x},选择上游节点中定义的文件变量(例如 sys.files)。
你也可以按需配置其他可选参数(例如 输出格式、图片返回格式、表格返回格式 等);未填写时会使用默认值。不选择 输出格式 时,默认同时输出 Markdown 和 JSON。具体含义见下方「输入参数」表。
API Key由插件配置自动处理,此处无需填写。
插件参数与输出
输入参数
| 参数 | 类型 | 必填 | 说明 |
|---|---|---|---|
| 文件 | file | ✅ | 支持的文件:PDF、PNG、JPG、JPEG、BMP、TIFF、JP2、DIB、PPM、PGM、PBM、GIF、HEIC、HEIF、WEBP、XPM、TGA、DDS、XBM、DOC、DOCX、PPT、PPTX。最大 200 MB / 300 页。 |
| 输出格式 | checkbox | ❌ | 选择一个或多个输出格式。支持:Markdown、JSON。如果不选择,则默认输出 Markdown 和 JSON。 |
| 图片返回格式 | select | ❌ | 图片输出格式。支持:URL、Base64、None。默认值:URL。 |
| 公式返回格式 | select | ❌ | 公式输出格式。支持:LaTeX、MathML、ASCII。默认值:LaTeX。 |
| 表格返回格式 | select | ❌ | 表格输出格式。支持:HTML、Markdown、Image。默认值:HTML。在 Markdown 模式下,合并单元格会被拆分为独立单元格,并填充相同内容。 |
| 化学结构式返回格式 | select | ❌ | 化学结构式输出格式。支持:Image。默认值:Image。 |
| 文字跨页拼接 | boolean | ❌ | 将跨页文本合并为连续段落。默认值:False。 |
| 表格跨页拼接 | boolean | ❌ | 将跨页表格合并为连续表格。默认值:False。 |
| 标题层级识别 | boolean | ❌ | 识别标题层级结构,例如 H1/H2/H3。默认值:False。 |
| 保留文中图 | boolean | ❌ | 返回文字段落中的图片。默认值:True。 |
| 保留表中图 | boolean | ❌ | 返回表格单元格中的图片。默认值:True。 |
| 图片理解 | boolean | ❌ | 对文档中的图片进行语义理解和结构化描述。默认值:True。 |
| 保留页眉页脚 | boolean | ❌ | 保留页眉页脚而不是默认过滤掉。默认值:False。 |
输出变量
| 变量 | 说明 |
|---|---|
markdown | 解析后的文档内容(Markdown 格式),保留原始版面结构,包含标题、表格、列表、公式和图片 |
json_str | SoMark API 返回的完整原始 JSON 响应的字符串,包含每个文档元素的详细结构化数据(元素类型、内容、坐标、页码等),适合在代码节点中进行高级处理 |


