Marker - 将 PDF 快速转换为 Markdown / JSON / HTML

Tue, 19 Aug 2025 18:12:26 GMT

Marker - 将 PDF 快速转换为 Markdown / JSON / HTML

https://github.com/datalab-to/marker

API 版本： https://github.com/adithya-s-k/marker-api

Marker 是一个将 PDF 文档转换为 Markdown、JSON 和 HTML 的工具，快速准确。

● 支持多种文件格式（PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB）和多种语言的转换
● 格式化表格、公式、内联数学、链接、引用和代码块
● 提取和保存图像，移除页眉 / 页脚等
● 可通过 LLM 提高转换准确度

#PDF #Tool #GitHub

GitHub

GitHub - datalab-to/marker: Convert PDF to markdown + JSON quickly with high accuracy

Convert PDF to markdown + JSON quickly with high accuracy - datalab-to/marker

Docling Parse：专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包

Wed, 30 Jul 2025 17:42:22 GMT

Docling Parse：专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包。

• 支持字符、单词及行级别文本坐标输出，精准定位文本内容，方便深度版面分析与可视化
• 同时提取路径和位图图像，满足复杂文档结构解析需求
• 内置可交互式可视化脚本，便于快速验证与展示解析效果
• 性能显著提升，最新版本解析速度较初版快 5-10 倍，适合大规模文档处理
• Python 包即装即用，支持命令行和编程接口，灵活集成到多种工作流
• 完全开源，MIT 许可，社区活跃，持续更新与优化，便于二次开发和创新
• 适合科研、文档数字化、信息抽取等多场景应用，助力文档数据智能化转型

基于程序化 PDF 结构，精细提取多层级文本单元与图形元素，融合性能优化与可视化，推动 PDF 内容的结构化理解与应用扩展。
#资源参考 #工具 #AI #PDF提取文本图像

GitHub

GitHub - docling-project/docling-parse: Simple package to extract text with coordinates from programmatic PDFs

Simple package to extract text with coordinates from programmatic PDFs - docling-project/docling-parse

PDF提取文本图像 | Eyte Channel

Marker - 将 PDF 快速转换为 Markdown / JSON / HTML

Docling Parse：专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包