文章/答案/技术大牛

发布

社区首页 >问答首页 >Ruby读取器在解析PDF时添加不存在的空白行。

问Ruby读取器在解析PDF时添加不存在的空白行。
EN

Stack Overflow用户

提问于 2017-05-13 01:51:15

回答 1查看 183关注 0票数 0

我正在构建一个工具来解析从Linkedin下载的简历PDF。但是，当我解析文档时，pdf-reader会找到空行，而这些行并不存在。

我想知道这是PDF还是PDF阅读器的问题？

脚本

require 'pdf-reader'

reader = PDF::Reader.new("CV.pdf")

reader.pages.each_with_index do |page, page_num|
    bits = page.text.split("\n")

    bits.each_with_index do |bit, index|
        puts bit
    end
end

CV快照

解析输出

Senior Analyst
September 2013 - August 2015 (1 year 11 months)
  - Managed a team of analysts to drive operational improvement across all departments of a subsidiary

   company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in
   logistics costs within my first year

在输出的文本中，您会注意到在句子的中间添加了一个空行。

这似乎很奇怪，因为如果您查看PDF的屏幕截图，它似乎没有任何空白行，其中pdf阅读器找到一个。

有没有人有可能导致这种情况的经验？

ruby

parsing

pdf-reader

回答 1

Stack Overflow用户

发布于 2017-05-15 05:32:32

在尝试其他库之后，问题似乎是pdf-reader，而不是PDF。

因此，我决定选择另一个名为Yomu (参见：https://github.com/Erol/yomu)的gem，它避免了这个问题。

这有点慢，但考虑到产出的可预测性增加，这是可以接受的。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43948467

复制

相似问题

问Ruby读取器在解析PDF时添加不存在的空白行。
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Ruby读取器在解析PDF时添加不存在的空白行。EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Ruby读取器在解析PDF时添加不存在的空白行。
EN