文章/答案/技术大牛

发布

社区首页 >问答首页 >如何将officer::read_docx应用于整个文件夹

问如何将officer::read_docx应用于整个文件夹
EN

Stack Overflow用户

提问于 2018-02-23 01:22:34

回答 1查看 360关注 0票数 0

我正在尝试扫描许多文档，目的是将文本重新组织为标准格式。这包括使用docxtractr提取表，并使用textreadr单独提取正文文本，或者使用officer::docx_summary标记正文和表文本以便于操作。对于这个问题，我使用了officer::read_docx和officer::docx_summary。我使用的测试文档是.docx，并且在包含文本和数字的表格前后包含无意义的文本。

我的代码是：

dir <- "C:/path/to/documents"
filenames <- list.files(path = dir, pattern = "*.docx", full.names = TRUE)
docxtest <- officer::docx_summary(lapply(filenames, officer::read_docx))

理想情况下，它将生成一个包含docx_summary信息的数据帧列表。我尝试在文件名列表上使用lapply，但在尝试查看时输出列表显示错误：

Error in names[[i]]: subscript out of bounds.

officer

loops

lapply

docx

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-02-23 01:33:14

officer::docx_summary用于officer::read_docx返回的对象，不支持列表...

filenames <- list.files(path = dir, pattern = "*.docx", full.names = TRUE)
docxtest <- lapply(filenames, function(x) officer::docx_summary(officer::read_docx(x)) )

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/48933633

复制

相似问题

问如何将officer::read_docx应用于整个文件夹
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将officer::read_docx应用于整个文件夹EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何将officer::read_docx应用于整个文件夹
EN