首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Ruby读取器在解析PDF时添加不存在的空白行。

Ruby读取器在解析PDF时添加不存在的空白行。
EN

Stack Overflow用户
提问于 2017-05-13 01:51:15
回答 1查看 183关注 0票数 0

我正在构建一个工具来解析从Linkedin下载的简历PDF。但是,当我解析文档时,pdf-reader会找到空行,而这些行并不存在。

我想知道这是PDF还是PDF阅读器的问题?

脚本

代码语言:javascript
复制
require 'pdf-reader'

reader = PDF::Reader.new("CV.pdf")

reader.pages.each_with_index do |page, page_num|
    bits = page.text.split("\n")

    bits.each_with_index do |bit, index|
        puts bit
    end
end

CV快照

解析输出

代码语言:javascript
复制
Senior Analyst
September 2013 - August 2015 (1 year 11 months)
  - Managed a team of analysts to drive operational improvement across all departments of a subsidiary

   company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in
   logistics costs within my first year

在输出的文本中,您会注意到在句子的中间添加了一个空行。

这似乎很奇怪,因为如果您查看PDF的屏幕截图,它似乎没有任何空白行,其中pdf阅读器找到一个。

有没有人有可能导致这种情况的经验?

EN

回答 1

Stack Overflow用户

发布于 2017-05-15 05:32:32

在尝试其他库之后,问题似乎是pdf-reader,而不是PDF。

因此,我决定选择另一个名为Yomu (参见:https://github.com/Erol/yomu)的gem,它避免了这个问题。

这有点慢,但考虑到产出的可预测性增加,这是可以接受的。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43948467

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档