发布于 2022-09-02 14:23:58
没有这样的空白,只是暂时它更容易,让我们仔细看看你的链接观众渲染:-

因此,让我们复制真实PDF中的内容(没有web侧html <p>标记):
support, product design, HR Management, knowledge process outsourcing for
pharmaceutical companies and large complex projects.
Software exports make up 20 % of India's total export revenue in 2003-04, up from 4.9 %
in 1997.This figure is expected to go up to 44% of annual exports by 2010. Though India看到“没有空白”只是左对齐,非对齐(破烂的)文本,需要一个样式,如字体名称和拉伸位置添加到一个页面中保留行提要或真正的回车。(偶尔也会有一些后置空间或垂直/水平移动,但在行打印机文本中通常没有意义)。甚至“标签”“缩进”和一些空间字符通常在PDF打印输出中被丢弃。
如果您想要空隙或线包,您需要添加它们。
一个很好的替代方法是在这里使用poppler或xpdf -layout将导出到-(控制台)或管道,或者用路径/name.txt替换它,还有许多其他选项,比如-nopgbrk
xpdf-tools-win-4.04\bin32>pdftotext -f 1 -l 1 -layout IT_past.pdf -

https://stackoverflow.com/questions/73580435
复制相似问题