Marker - 将 PDF 快速转换为 Markdown / JSON / HTML
https://github.com/datalab-to/marker
API 版本: https://github.com/adithya-s-k/marker-api
Marker 是一个将 PDF 文档转换为 Markdown、JSON 和 HTML 的工具,快速准确。
● 支持多种文件格式(PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB)和多种语言的转换
● 格式化表格、公式、内联数学、链接、引用和代码块
● 提取和保存图像,移除页眉 / 页脚等
● 可通过 LLM 提高转换准确度
#PDF #Tool #GitHub
https://github.com/datalab-to/marker
API 版本: https://github.com/adithya-s-k/marker-api
Marker 是一个将 PDF 文档转换为 Markdown、JSON 和 HTML 的工具,快速准确。
● 支持多种文件格式(PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB)和多种语言的转换
● 格式化表格、公式、内联数学、链接、引用和代码块
● 提取和保存图像,移除页眉 / 页脚等
● 可通过 LLM 提高转换准确度
#PDF #Tool #GitHub
Docling Parse:专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包。
• 支持字符、单词及行级别文本坐标输出,精准定位文本内容,方便深度版面分析与可视化
• 同时提取路径和位图图像,满足复杂文档结构解析需求
• 内置可交互式可视化脚本,便于快速验证与展示解析效果
• 性能显著提升,最新版本解析速度较初版快 5-10 倍,适合大规模文档处理
• Python 包即装即用,支持命令行和编程接口,灵活集成到多种工作流
• 完全开源,MIT 许可,社区活跃,持续更新与优化,便于二次开发和创新
• 适合科研、文档数字化、信息抽取等多场景应用,助力文档数据智能化转型
基于程序化 PDF 结构,精细提取多层级文本单元与图形元素,融合性能优化与可视化,推动 PDF 内容的结构化理解与应用扩展。
#资源参考 #工具 #AI #PDF提取文本图像
• 支持字符、单词及行级别文本坐标输出,精准定位文本内容,方便深度版面分析与可视化
• 同时提取路径和位图图像,满足复杂文档结构解析需求
• 内置可交互式可视化脚本,便于快速验证与展示解析效果
• 性能显著提升,最新版本解析速度较初版快 5-10 倍,适合大规模文档处理
• Python 包即装即用,支持命令行和编程接口,灵活集成到多种工作流
• 完全开源,MIT 许可,社区活跃,持续更新与优化,便于二次开发和创新
• 适合科研、文档数字化、信息抽取等多场景应用,助力文档数据智能化转型
基于程序化 PDF 结构,精细提取多层级文本单元与图形元素,融合性能优化与可视化,推动 PDF 内容的结构化理解与应用扩展。
#资源参考 #工具 #AI #PDF提取文本图像