Eyte Channel

Docling Parse：专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包。

• 支持字符、单词及行级别文本坐标输出，精准定位文本内容，方便深度版面分析与可视化
• 同时提取路径和位图图像，满足复杂文档结构解析需求
• 内置可交互式可视化脚本，便于快速验证与展示解析效果
• 性能显著提升，最新版本解析速度较初版快 5-10 倍，适合大规模文档处理
• Python 包即装即用，支持命令行和编程接口，灵活集成到多种工作流
• 完全开源，MIT 许可，社区活跃，持续更新与优化，便于二次开发和创新
• 适合科研、文档数字化、信息抽取等多场景应用，助力文档数据智能化转型

基于程序化 PDF 结构，精细提取多层级文本单元与图形元素，融合性能优化与可视化，推动 PDF 内容的结构化理解与应用扩展。
#资源参考 #工具 #AI #PDF提取文本图像

GitHub

GitHub - docling-project/docling-parse: Simple package to extract text with coordinates from programmatic PDFs

Simple package to extract text with coordinates from programmatic PDFs - docling-project/docling-parse