<?xml version="1.0" encoding="UTF-8"?><?xml-stylesheet href="/rss.xsl" type="text/xsl"?><rss version="2.0" xmlns:content="http://purl.org/rss/1.0/modules/content/"><channel><title>PDF提取文本图像 | Eyte Channel</title><description/><link>https://cc.nostses.icu</link><item><title>Marker - 将 PDF 快速转换为 Markdown / JSON / HTML</title><link>https://cc.nostses.icu/posts/1394</link><guid isPermaLink="true">https://cc.nostses.icu/posts/1394</guid><pubDate>Tue, 19 Aug 2025 18:12:26 GMT</pubDate><content:encoded>&lt;b&gt;&lt;u&gt;Marker - 将 PDF 快速转换为 Markdown / JSON / HTML&lt;/u&gt;&lt;/b&gt;&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;https://github.com/datalab-to/marker&quot; target=&quot;_blank&quot;&gt;https://github.com/datalab-to/marker&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;API 版本： &lt;a href=&quot;https://github.com/adithya-s-k/marker-api&quot; target=&quot;_blank&quot;&gt;https://github.com/adithya-s-k/marker-api&lt;/a&gt;&lt;br /&gt;&lt;br /&gt;Marker 是一个将 PDF 文档转换为 Markdown、JSON 和 HTML 的工具，快速准确。&lt;br /&gt;&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;支持多种文件格式（PDF、图像、PPTX、DOCX、XLSX、HTML、EPUB）和多种语言的转换&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;格式化表格、公式、内联数学、链接、引用和代码块&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;提取和保存图像，移除页眉 / 页脚等&lt;br /&gt;&lt;b&gt;● &lt;/b&gt;可通过 LLM 提高转换准确度&lt;br /&gt;&lt;br /&gt;&lt;a href=&quot;/search/%23PDF&quot;&gt;#PDF&lt;/a&gt; &lt;a href=&quot;/search/%23Tool&quot;&gt;#Tool&lt;/a&gt; &lt;a href=&quot;/search/%23GitHub&quot;&gt;#GitHub&lt;/a&gt;&lt;a href=&quot;https://github.com/datalab-to/marker&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  
  &lt;div&gt;GitHub - datalab-to/marker: Convert PDF to markdown + JSON quickly with high accuracy&lt;/div&gt;
  &lt;div&gt;Convert PDF to markdown + JSON quickly with high accuracy - datalab-to/marker&lt;/div&gt;
&lt;/a&gt;</content:encoded></item><item><title>Docling Parse：专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包</title><link>https://cc.nostses.icu/posts/1218</link><guid isPermaLink="true">https://cc.nostses.icu/posts/1218</guid><pubDate>Wed, 30 Jul 2025 17:42:22 GMT</pubDate><content:encoded>&lt;a href=&quot;https://github.com/docling-project/docling-parse&quot; target=&quot;_blank&quot;&gt;Docling Parse&lt;/a&gt;：专注于从程序化 PDF 中高效提取文本、路径及位图资源的轻量级工具包。  &lt;br /&gt;&lt;br /&gt;• 支持字符、单词及行级别文本坐标输出，精准定位文本内容，方便深度版面分析与可视化&lt;br /&gt;• 同时提取路径和位图图像，满足复杂文档结构解析需求  &lt;br /&gt;• 内置可交互式可视化脚本，便于快速验证与展示解析效果  &lt;br /&gt;• 性能显著提升，最新版本解析速度较初版快 5-10 倍，适合大规模文档处理  &lt;br /&gt;• Python 包即装即用，支持命令行和编程接口，灵活集成到多种工作流  &lt;br /&gt;• 完全开源，MIT 许可，社区活跃，持续更新与优化，便于二次开发和创新  &lt;br /&gt;• 适合科研、文档数字化、信息抽取等多场景应用，助力文档数据智能化转型  &lt;br /&gt;&lt;br /&gt;基于程序化 PDF 结构，精细提取多层级文本单元与图形元素，融合性能优化与可视化，推动 PDF 内容的结构化理解与应用扩展。&lt;br /&gt;&lt;a href=&quot;/search/%23%E8%B5%84%E6%BA%90%E5%8F%82%E8%80%83&quot;&gt;#资源参考&lt;/a&gt; &lt;a href=&quot;/search/%23%E5%B7%A5%E5%85%B7&quot;&gt;#工具&lt;/a&gt; &lt;a href=&quot;/search/%23AI&quot;&gt;#AI&lt;/a&gt; &lt;a href=&quot;/search/%23PDF%E6%8F%90%E5%8F%96%E6%96%87%E6%9C%AC%E5%9B%BE%E5%83%8F&quot;&gt;#PDF提取文本图像&lt;/a&gt;&lt;a href=&quot;https://github.com/docling-project/docling-parse&quot; target=&quot;_blank&quot;&gt;
  
  &lt;div&gt;GitHub&lt;/div&gt;
  &lt;img class=&quot;link_preview_image&quot; alt=&quot;GitHub - docling-project/docling-parse: Simple package to extract text with coordinates from programmatic PDFs&quot; src=&quot;/static/https://cdn4.telesco.pe/file/WbRvsH9MJHpsCm4cA8MWMWA3q8_caUPRY6rIzAZZwJW3FpY11zJ1DXf7WVnCFUM8_LJKcbSzZv8ZiBhQMGBs8kvUXxNPZ69-A2oSh8zYgqi6TPxKkH47LNjZzSSpUgERYocVGddIQQh976OtNaCVGhCUuxDQCeoZjvI7qqJktxef7aJrWBW9yox1e6LAgya7d2BXqr9wYBURKlgwfHx_wWEbLAFKSnB-pbBgIjHn2kgP69oDfR79KeYcsjcPf2s0Ku4cq1W293aN0UI0_QadsO8Q7VUJB1wHL_zIlkG5TFIP7CTqZz6eJn-YlNlGO6eNL8P1HvACza8OuILfGlCb9g.jpg&quot; loading=&quot;lazy&quot; /&gt;
  &lt;div&gt;GitHub - docling-project/docling-parse: Simple package to extract text with coordinates from programmatic PDFs&lt;/div&gt;
  &lt;div&gt;Simple package to extract text with coordinates from programmatic PDFs - docling-project/docling-parse&lt;/div&gt;
&lt;/a&gt;</content:encoded></item></channel></rss>