首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >显示特定文档变量的摘要

显示特定文档变量的摘要
EN

Stack Overflow用户
提问于 2019-05-04 18:45:27
回答 1查看 52关注 0票数 1

我想对pdf文件的语料库做一个简短的总结。我希望包括以下列:文本类型、标记、句子(如quanteda快速入门指南中所示),并排除所有其他列。从…

代码语言:javascript
复制
names(docvars(corp_mk))

我得到了

代码语言:javascript
复制
[1] "author"        "datetimestamp" "description"   "heading"       "id"           
[6] "language"      "origin"      

这不应该显示在摘要中。

我尝试在summary()命令中使用"showmeta = FALSE“,但它仍然包含所有列。

我得到了:

代码语言:javascript
复制
 Text Types Tokens Sentences       author       datetimestamp description
   MoKa_BA_LG_16.pdf  1194   8620       283 Pressestelle 2016-07-27 13:01:04            
  MoKa_BBK_DO_18.pdf   810   2643        56      spalgen 2018-07-03 09:00:13        <NA>
 MoKa_BBK_DUE_18.pdf  1327   6219        97      Suttkus 2018-01-24 14:44:37        <NA>

当我想要

代码语言:javascript
复制
      Text            Types Tokens Sentences       
   MoKa_BA_LG_16.pdf  1194   8620       283          
  MoKa_BBK_DO_18.pdf   810   2643        56      
 MoKa_BBK_DUE_18.pdf  1327   6219        97  

在做摘要之前,我是否必须从语料库中提取列,或者可以使用quanteda命令来完成?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-05-04 19:32:51

summary.corpus()方法以静默方式返回打印的data.frame。因此,如果您只想要文本摘要列,请按以下方式将其分割出来:

代码语言:javascript
复制
library("quanteda")
## Package version: 1.4.3
## Parallel computing: 2 of 12 threads used.
## See https://quanteda.io for tutorials and examples.

summary(data_corpus_irishbudget2010)[, c("Text", "Types", "Tokens", "Sentences")]
##                         Text Types Tokens Sentences
## 1        Lenihan, Brian (FF)  1953   8641       374
## 2       Bruton, Richard (FG)  1040   4446       217
## 3         Burton, Joan (LAB)  1624   6393       307
## 4        Morgan, Arthur (SF)  1595   7107       343
## 5          Cowen, Brian (FF)  1629   6599       250
## 6           Kenny, Enda (FG)  1148   4232       153
## 7      ODonnell, Kieran (FG)   678   2297       133
## 8       Gilmore, Eamon (LAB)  1181   4177       201
## 9     Higgins, Michael (LAB)   488   1286        44
## 10       Quinn, Ruairi (LAB)   439   1284        59
## 11     Gormley, John (Green)   401   1030        49
## 12       Ryan, Eamon (Green)   510   1643        90
## 13     Cuffe, Ciaran (Green)   442   1240        45
## 14 OCaolain, Caoimhghin (SF)  1188   4044       176
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55981723

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档