首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >无法在从PDF文件中提取的文本中替换"\r\n-“,使用R中readtext包中的readtext()

无法在从PDF文件中提取的文本中替换"\r\n-“,使用R中readtext包中的readtext()
EN

Stack Overflow用户
提问于 2020-06-10 15:50:21
回答 1查看 201关注 0票数 0

我正在尝试删除一个文本中的"\r\n-“,我使用R Studio中的readtext包中的readtext()从一个PDF文件中提取它。下面是我在R中的代码:

代码语言:javascript
复制
    library(readtext)
    jd <- readtext("C:/Users/HomeUser/Documents/Sales Manager.pdf")
    jd_text <- jd$text
    jd_text2 <- gsub(pattern = "\r\n-?|•", replacement = " ", jd_text)

下面是原始提取的文本jd_text

“销售经理\r\n Manager是一家专门从事智能自动化(IA)的技术服务提供商。我们与大型企业合作,帮助他们和他们的员工在未来的工作中茁壮成长。我们的使命是共同创造未来的数字劳动力,和我们的愿景,使工作愉快。欲了解更多信息,请访问www.cfb-bots.com。\r\r\n我们正在寻找一位表现出色的领跑者,为我们不断增长的业务开辟新的道路并建立新的联系。作为一名销售经理,通过实现我们的客户获取和收入增长目标,您将在保持公司竞争力方面发挥至关重要的作用。你将是销售过程的每一个阶段的关键联络人,从计划到结束销售。\r\n如果你对技术充满热情,并且渴望解决我们客户的挑战,继续阅读以了解更多。\r\n你可以得到:\r\n−对实现销售目标的激励\r\n−接触到最新的行业趋势和技术\r\n−无休止的学习和增长机会\r\n−锐化的销售计划,分析和管理技能\r\n灵活的工作-生活福利\r\n你将做:\r\n销售策略\r\n-发展.“

我能够使用jd_text使用gsub()删除许多“\r-”。jd_text2的输出如下:

“销售经理CFB是一家专门从事智能自动化(IA)的技术服务提供商。我们与大型企业合作进行数字转型,帮助他们和他们的员工在未来的工作中茁壮成长。我们的使命是共同创造未来的数字劳动力队伍,我们的愿景是使工作愉快。欲了解更多信息,请访问www.cfb-bots.com。我们正在寻找一个高性能的领跑者,以开辟道路,并为我们不断增长的业务建立新的联系。作为一名销售经理,通过实现我们的客户获取和收入增长目标,您将在保持公司竞争力方面发挥至关重要的作用。你将是销售过程的每一个阶段的关键联络人,从计划到结束销售。如果你对科技充满热情,并且渴望解决客户的挑战,那么请继续阅读,了解更多信息。你可以获得:−对实现销售目标的激励

正如你所看到的,我能够删除在“灵活的工作-生活福利”之后出现的“\r-”,而“--”从最初的几个“\r”中仍然保留下来。但是,当我将R Studio控制台中jd_text的显示中的原始文本摘录直接粘贴到一个新的变量jd_test中,再次应用gsub()时,我就能够完成我的目标:

代码语言:javascript
复制
jd_test <- "Sales Manager\r\nCFB Bots is a technology service provider specializing in Intelligent Automation (IA). We partner with\r\nlarge enterprises in their Digital Transformation journey and help them and their employees thrive\r\nin the Future of Work. Our mission is to co-create the Digital Workforce of the Future, and our vision\r\nis to make work enjoyable. For more information, please visit www.cfb-bots.com.\r\nWe are looking for a high performing frontrunner to blaze the trail and make new connections for\r\nour growing business. As a Sales Manager, you will play a vital role in keeping the Company\r\ncompetitive by achieving our customer acquisition and revenue growth targets. You will be the key\r\nliaison in every stage of the sales process, from planning to closing the sales.\r\nIf you are passionate about technology and are motivated by a hunger to solve our clients’\r\nchallenges, read on to find out more.\r\nYou can gain:\r\n− Incentive for achieving sales targets\r\n− Exposure to the latest industry trends and technologies\r\n− Endless learning and growth opportunities\r\n− Sharpen sales planning, analytical and management skills\r\n− Flexible work-life benefits\r\nYou will do:\r\nSales Strategy\r\n-    Develop ..."

jd_test2 <- gsub(pattern = "\r\n-?|•", replacement = " ", jd_test)

来自jd_test2的输出:

销售经理CFB是一家专门从事智能自动化(IA)的技术服务提供商。我们与大型企业合作进行数字转型,帮助他们和他们的员工在未来的工作中茁壮成长。我们的使命是共同创造未来的数字劳动力队伍,我们的愿景是使工作愉快。欲了解更多信息,请访问www.cfb-bots.com。我们正在寻找一个高性能的领跑者,以开辟道路,并为我们不断增长的业务建立新的联系。作为一名销售经理,通过实现我们的客户获取和收入增长目标,您将在保持公司竞争力方面发挥至关重要的作用。你将是销售过程的每一个阶段的关键联络人,从计划到结束销售。如果你对科技充满热情,并且渴望解决客户的挑战,那么请继续阅读,了解更多信息。你可以获得:对实现销售目标的激励,接触最新的行业趋势和技术,无尽的学习和增长机会,锐化销售计划,分析和管理技巧,灵活的工作-生活福利,:销售战略开发.“

有谁知道问题出在哪里,我该怎么做?我尝试过使用来自pdftools包的另一个函数pdf_text(),但是它产生了同样令人沮丧的结果。起初,我认为"-“对于前几个"\r\n-”略长于后者,但直接复制粘贴的尝试似乎与这一观点相矛盾。在复制粘贴操作期间,对象中是否有“隐藏”的东西没有迁移?任何建议都是非常感谢的!

EN

回答 1

Stack Overflow用户

发布于 2020-06-11 15:00:28

我对我的问题找到了可能的答案。从PDF文档中提取的原始文本似乎不是R可以识别的编码。这就可以解释为什么前几个"-"s没有被删除。在我应用jd_text <-iconv(jd_text,"UTF-8")强制UTF-8编码之后,我的问题就解决了,我能够完全删除“\r-”。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/62307756

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档