我有一个包含几个列的CSV f: Tweet、date等。一些Tweets中的空格会导致空行和不需要的截短行。
工作原理: 1.使用记事本++的函数"Line Operations>Remove空行(包含空白字符)“2.搜索和替换:\r with nothing。
但是,我需要对大量文件执行此操作,而我无法在R中找到一个带有gsub()的正则表达式来执行Notepadd++函数所做的工作。
请注意,将^[ \t]*$\r?\n替换为nothing,然后将\r替换为nothing,在Notepad++中有效,但在R中不起作用,就像建议的here那样,但在R中,g(sub)不起作用。
我尝试了以下代码:
tx <- readLines("tweets.csv") subbed <-gsub(pattern = "^[ \\t]*$\\r?\\n", replace = "", x = tx) subbed <-gsub(pattern = "\r", replace = "", x = subbed) writeLines(subbed, "output.csv")
这是输入:

这是所需的输出:

发布于 2020-03-06 15:23:55
你可以用
library(readtext)
tx <- readtext("weets.csv")
subbed <- gsub("(?m)^\\h*\\R?", "", tx$text, perl=TRUE)
subbed <- gsub("\r", "", subbed, fixed=TRUE)
writeLines(trimws(subbed), "output.csv")readtext库将文件读入一个变量中,从而保留所有的断行字符。
https://stackoverflow.com/questions/60565677
复制相似问题