首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >qdap中的sentSplit()在没有端点时有问题

qdap中的sentSplit()在没有端点时有问题
EN

Stack Overflow用户
提问于 2014-07-21 22:35:02
回答 1查看 704关注 0票数 2

我正在使用qdap软件包进行极性分析。在CSV文件中,我有一句没有标点符号的句子,比如"Sucks to not“(没有句号)。在dataframe上使用sentsplit之后,这一行将显示NA。

如何在R中的不完整句子中添加端点?有办法阻止这件事吗?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2014-07-22 01:52:39

许多qdap函数都需要正确的格式化/结构化数据表单。这通常是指每一行只有一个句号的句子。这就是算法如何决定什么是句子。如果这些句子确实是不完整的句子,qdap希望管道符号“\”表示这一点。下面是一个用end_mark函数检测缺失的端点,然后粘贴一个|的示例:

代码语言:javascript
复制
dat <- DATA
dat[1, 4] <- "Sucks to not be removable"
missing <- end_mark(dat[["state"]]) == "_"
dat[["state"]][missing] <- paste0(dat[["state"]][missing], "|")

sentSplit(dat, "state")

##        person  tot sex adult code                       state
## 1         sam  1.1   m     0   K1  Sucks to not be removable|
## 2        greg  2.1   m     0   K2     No it's not, it's dumb.
## 3     teacher  3.1   m     1   K3          What should we do?
## 4         sam  4.1   m     0   K4        You liar, it stinks!
## 5        greg  5.1   m     0   K5     I am telling the truth!
## 6       sally  6.1   f     0   K6      How can we be certain?
## 7        greg  7.1   m     0   K7            There is no way.
## 8         sam  8.1   m     0   K8             I distrust you.
## 9       sally  9.1   f     0   K9 What are you talking about?
## 10 researcher 10.1   f     1  K10           Shall we move on?
## 11 researcher 10.2   f     1  K10                  Good then.
## 12       greg 11.1   m     0  K11                 I'm hungry.
## 13       greg 11.2   m     0  K11                  Let's eat.
## 14       greg 11.3   m     0  K11                You already?

顺便说一句,qdap的开发版本(version >= 2.1.1)包含新的数据格式化函数,包括check_text,用于自动检查潜在的格式化问题,并打印报告,提供潜在问题和可能修复的位置。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24875974

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档