我得到了一个刻有日期的字符向量。我的问题是:当使用as.Date()时,包含月份名称“M rz”(=在德语中意思是“游行”)的每个日期都是NA编辑的。为什么会这样呢?
下面是一个(希望是可复制的)示例:
require(RCurl)
require(XML)
doc <- htmlParse(getURL("http://www.amazon.de/product-reviews/3836218984/?ie=UTF8&pageNumber=5&showViewpoints=0&sortBy=byRankDescending"),
encoding="UTF-8")
(dates <- xpathSApply(doc, "//div/span[2]/nobr", xmlValue))
# [1] "12. Februar 2009" "12. November 2006" "19. März 2010"
# [4] "30. Juni 2007" "7. März 2006" "19. März 2007"
# [7] "22. Januar 2006" "24. September 2005" "15. Februar 2012"
# [10] "28. März 2007"
Sys.setlocale("LC_TIME", "German") # on Windows, see ?Sys.setlocale
as.Date(dates, "%d. %B %Y")
# [1] "2009-02-12" "2006-11-12" NA "2007-06-30" NA
# [6] NA "2006-01-22" "2005-09-24" "2012-02-15" NA 对下一步要尝试什么有什么想法吗?
请注意,如果我在dputed和复制/粘贴字符向量上应用相同的内容,那么一切都很好:
dates <- c("12. Februar 2009", "12. November 2006", "19. März 2010", "30. Juni 2007",
"7. März 2006", "19. März 2007", "22. Januar 2006", "24. September 2005",
"15. Februar 2012", "28. März 2007")
as.Date(dates, "%d. %B %Y")
# [1] "2009-02-12" "2006-11-12" "2010-03-19" "2007-06-30"
# [5] "2006-03-07" "2007-03-19" "2006-01-22" "2005-09-24"
# [9] "2012-02-15" "2007-03-28"为了完整起见,我的会话信息:
R version 3.0.2 (2013-09-25)
Platform: x86_64-w64-mingw32/x64 (64-bit)
locale:
[1] LC_COLLATE=German_Germany.1252 LC_CTYPE=German_Germany.1252 LC_MONETARY=German_Germany.1252
[4] LC_NUMERIC=C LC_TIME=German_Germany.1252
attached base packages:
[1] stats graphics grDevices utils datasets methods base
loaded via a namespace (and not attached):
[1] tools_3.0.2发布于 2014-02-23 19:00:40
我可以在Windows7 x64上复制这个。关于R和Windows如何与字符编码交互存在许多问题,我并不假装理解它们。在您的示例中,在转换为latin1之前,只需简单地转换为Date编码就可以了。
as.Date(iconv(dates,from='UTF-8',to='latin1'),'%d. %B %Y')
# [1] "2009-02-12" "2006-11-12" "2010-03-19" "2007-06-30" "2006-03-07" "2007-03-19"
# [7] "2006-01-22" "2005-09-24" "2012-02-15" "2007-03-28"也许有一种方法可以让as.Date识别Windows中的不同编码,但我不知道。
发布于 2014-06-06 11:38:19
我也有一个类似的问题。我将编写我找到的解决方案,希望能帮助用户使用意大利本地系统设置
Sys.setlocale("LC_TIME")1 "Italian_Italy.1252“
到目前为止,我不得不转换因素:因素是
levels(dates)“2012年6月1日”“2012年9月11日”2012年10月19日“”2013年3月20日“”2012年6月28日“6”2012年5月7日“
这在所有月份的转换中都产生了NA (因为缩写在意大利语中是相同的)。
head(as.Date(dates, format= "%d. %b. %Y"))1 NA
summary(GEM_variability$date)
Min. 1st Qu. Median Mean 3rd Qu. Max. "2013-03-20“"2013-03-20”"2013-03-20“"2013-03-20”"2013-03-20“NA的"559”
我在?strftime的帮助文件中找到了解决方案。
lct <- Sys.getlocale("LC_TIME"); Sys.setlocale("LC_TIME", "C")
dates<- as.Date(date, format="%d. %b. %Y")
#dates<- strptime(date, format="%d. %b. %Y")
Sys.setlocale("LC_TIME", lct)发布于 2014-03-06 18:54:11
这是一个很长的注释/回答扩展。
我也遇到了同样的问题。
例如,用
months <- c("JAN", "FEB", "MAR", "APR", "MAY", "JUN",
"JUL", "AUG", "SEP", "OCT", "NOV", "DEC")
for (month in months) print(
as.Date(iconv(paste("01", month, "2014", sep=""),
from='UTF-8', to='latin1'), "%d%b%Y"))我得到了
[1] "2014-01-01"
[1] "2014-02-01"
[1] NA
[1] "2014-04-01"
[1] NA
[1] "2014-06-01"
[1] "2014-07-01"
[1] "2014-08-01"
[1] "2014-09-01"
[1] NA
[1] "2014-11-01"
[1] "2014-12-01"因此,我没有3月、5月和10月的日期(使用或不使用iconv()与具体的论点无关)。
解决办法是:
Sys.setlocale("LC_TIME", "en_US.UTF-8")然后,我得到了一切正确(iconv()是不必要的)。
https://stackoverflow.com/questions/21972674
复制相似问题