跳转到主要内容

安装并配置插件

1

安装插件

登录您的 Dify 平台,前往 工具插件市场,搜索 SoMark 插件并添加。
2

配置插件参数

安装完成后进入插件配置页面:
  • API Base URL:默认为 https://somark.tech/api/v1,通常无需修改。
  • API Key:输入您的 SoMark API Key。
还没有 API Key?前往 SoMark API 工作台获取 API Key。免费额度无需领取,会自动发放到账户(每日 500 页、每月 2000 页)。
3

保存配置

填写完成后点击保存,插件即可在工作流中使用。

在工作流中使用 SoMark 插件

1

添加 SoMark 工具节点

在 Dify 工作流编辑器中,点击 + 添加新节点,选择工具,找到并添加 SoMark > SoMark文档解析 节点。dify-添加SoMark工具节点
2

配置输入变量

点击输入框中的变量图标 {x},选择上游节点中定义的文件变量(例如 sys.files)。 你也可以按需配置其他可选参数(例如 输出格式图片返回格式表格返回格式 等);未填写时会使用默认值。不选择 输出格式 时,默认同时输出 MarkdownJSON。具体含义见下方「输入参数」表。 API Key由插件配置自动处理,此处无需填写。dify-配置输入变量
3

在下游节点引用输出

节点执行完成后,其输出变量可在所有下游节点(LLM、文本分割、代码节点等)中使用。在任意下游节点的输入框中点击 {x},即可选择 SoMark 节点的输出变量。

插件参数与输出

输入参数

参数类型必填说明
文件file支持的文件:PDF、PNG、JPG、JPEG、BMP、TIFF、JP2、DIB、PPM、PGM、PBM、GIF、HEIC、HEIF、WEBP、XPM、TGA、DDS、XBM、DOC、DOCX、PPT、PPTX。最大 200 MB / 300 页。
输出格式checkbox选择一个或多个输出格式。支持:MarkdownJSON。如果不选择,则默认输出 MarkdownJSON
图片返回格式select图片输出格式。支持:URLBase64None。默认值:URL
公式返回格式select公式输出格式。支持:LaTeXMathMLASCII。默认值:LaTeX
表格返回格式select表格输出格式。支持:HTMLMarkdownImage。默认值:HTML。在 Markdown 模式下,合并单元格会被拆分为独立单元格,并填充相同内容。
化学结构式返回格式select化学结构式输出格式。支持:Image。默认值:Image
文字跨页拼接boolean将跨页文本合并为连续段落。默认值:False
表格跨页拼接boolean将跨页表格合并为连续表格。默认值:False
标题层级识别boolean识别标题层级结构,例如 H1/H2/H3。默认值:False
保留文中图boolean返回文字段落中的图片。默认值:True
保留表中图boolean返回表格单元格中的图片。默认值:True
图片理解boolean对文档中的图片进行语义理解和结构化描述。默认值:True
保留页眉页脚boolean保留页眉页脚而不是默认过滤掉。默认值:False

输出变量

变量说明
markdown解析后的文档内容(Markdown 格式),保留原始版面结构,包含标题、表格、列表、公式和图片
json_strSoMark API 返回的完整原始 JSON 响应的字符串,包含每个文档元素的详细结构化数据(元素类型、内容、坐标、页码等),适合在代码节点中进行高级处理