问Dataframe操作:如何替换文本列中的工件？
EN

Stack Overflow用户

提问于 2018-11-02 08:16:45

回答 1查看 48关注 0票数 0

我们的目标是在数据帧内的一个名为"text“的文本列中为每一行查找并替换pdf-parsing中的工件。

"<U+FB01>"将替换为"fi"，"<U+FB02>"将替换为"fl"

df<-data.frame(text=c('Das neue P<U+FB02>ege<U+FB01>nanzierungsgesetz','Die Kon<U+FB02>ikte zwischen Spitalrat und','Im neuen Spital<U+FB01>nanzierungsgesetz, welches'))

应该是：

df2<-data.frame(text=c('Das neue Pflegefinanzierungsgesetz','Die Konflikte zwischen Spitalrat und','Im neuen Spitalfinanzierungsgesetz, welches'))

数据框屏幕截图：https://i.imgur.com/UvFIrNg.png

我能找到的最接近的解决方案(但不能让它工作)：Searching text within a column and completely replace

耽误您时间，实在对不起!

回答 1

Stack Overflow用户

发布于 2018-11-02 08:31:27

您可以使用gsub

df <- data.frame(text=c('acbd<U+FB01>efg', 'abc<U+FB01> efg <U+FB02>', 'ab cd'),
                 stringsAsFactors = F)
df

#                      text
#1          acbd<U+FB01>efg
#2 abc<U+FB01> efg <U+FB02>
#3                    ab cd

df$text <- gsub('<U\\+FB01>', 'fi', df$text)
df$text <- gsub('<U\\+FB02>', 'fl', df$text)
df

#          text
#1    acbdfiefg
#2 abcfi efg fl
#3        ab cd

请注意，在正则表达式中，\\对具有特殊含义的+字符进行转义。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/53111120

复制

相似问题

问Dataframe操作:如何替换文本列中的工件？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Dataframe操作:如何替换文本列中的工件？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Dataframe操作:如何替换文本列中的工件？
EN