我们的目标是在数据帧内的一个名为"text“的文本列中为每一行查找并替换pdf-parsing中的工件。
"<U+FB01>"将替换为"fi","<U+FB02>"将替换为"fl"
df<-data.frame(text=c('Das neue P<U+FB02>ege<U+FB01>nanzierungsgesetz','Die Kon<U+FB02>ikte zwischen Spitalrat und','Im neuen Spital<U+FB01>nanzierungsgesetz, welches'))
应该是:
df2<-data.frame(text=c('Das neue Pflegefinanzierungsgesetz','Die Konflikte zwischen Spitalrat und','Im neuen Spitalfinanzierungsgesetz, welches'))
数据框屏幕截图:https://i.imgur.com/UvFIrNg.png
我能找到的最接近的解决方案(但不能让它工作):Searching text within a column and completely replace
耽误您时间,实在对不起!
发布于 2018-11-02 08:31:27
您可以使用gsub
df <- data.frame(text=c('acbd<U+FB01>efg', 'abc<U+FB01> efg <U+FB02>', 'ab cd'),
stringsAsFactors = F)
df
# text
#1 acbd<U+FB01>efg
#2 abc<U+FB01> efg <U+FB02>
#3 ab cd
df$text <- gsub('<U\\+FB01>', 'fi', df$text)
df$text <- gsub('<U\\+FB02>', 'fl', df$text)
df
# text
#1 acbdfiefg
#2 abcfi efg fl
#3 ab cd请注意,在正则表达式中,\\对具有特殊含义的+字符进行转义。
https://stackoverflow.com/questions/53111120
复制相似问题