我正在构建一个工具来解析从Linkedin下载的简历PDF。但是,当我解析文档时,pdf-reader会找到空行,而这些行并不存在。
我想知道这是PDF还是PDF阅读器的问题?
脚本
require 'pdf-reader'
reader = PDF::Reader.new("CV.pdf")
reader.pages.each_with_index do |page, page_num|
bits = page.text.split("\n")
bits.each_with_index do |bit, index|
puts bit
end
endCV快照

解析输出
Senior Analyst
September 2013 - August 2015 (1 year 11 months)
- Managed a team of analysts to drive operational improvement across all departments of a subsidiary
company, including a 33% increase in conversions on their e-commerce platform and a 8% decrease in
logistics costs within my first year在输出的文本中,您会注意到在句子的中间添加了一个空行。
这似乎很奇怪,因为如果您查看PDF的屏幕截图,它似乎没有任何空白行,其中pdf阅读器找到一个。
有没有人有可能导致这种情况的经验?
发布于 2017-05-15 05:32:32
在尝试其他库之后,问题似乎是pdf-reader,而不是PDF。
因此,我决定选择另一个名为Yomu (参见:https://github.com/Erol/yomu)的gem,它避免了这个问题。
这有点慢,但考虑到产出的可预测性增加,这是可以接受的。
https://stackoverflow.com/questions/43948467
复制相似问题