我可以在互联网上运行统计分析的数据集是什么?
发布于 2010-02-12 22:31:26
datasets程序包包含在基本R中。运行以下命令可查看完整列表:
library(help="datasets")除此之外,还有许多可以提取数据的包,还有许多包含重要数据的包。其中,您可能想要从查看包开始,它“提供了一组在统计和数据可视化历史上非常有趣和重要的小型数据集”。
对于金融数据,the quantmod package提供了一个公共接口,用于从谷歌、雅虎、弗雷德和其他公司提取时间序列数据:
library(quantmod)
getSymbols("YHOO",src="google") # from google finance
getSymbols("GOOG",src="yahoo") # from yahoo finance
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED FRED (the Federal Reserve of St. Louis)真的是自由经济数据的宝库。
许多R包都捆绑了特定于其目标的数据。因此,如果您对遗传学、多层模型等感兴趣,相关的软件包将经常提供用于该分析的规范示例。此外,书包通常附带重现所有示例所需的数据。
以下是一些相关包的示例:
H256nytR:通过《纽约时报》提供对国会投票数据的访问。来自bookprimer:的数据包括以下数据:"A Primer of Ecology with R"qtlbook:includes data for R/qtl bookRGraphics:includes data to the "R Graphics“bookRead.isi:access to old World nutshell发布于 2010-02-12 22:37:59
在网络上有广泛的选择。例如,这里有一个庞大的sports databases目录(都是免费提供数据的,至少这是我的经验)。在该目录中是databaseBaseball.com,其中包含大约从1915年开始打过职业棒球的每个球员的complete datasets。
StatLib是另一个极好的资源--非常方便。这个单独的web page列出了超过100个数据库的4-5行摘要,所有这些摘要都以平面文件的形式提供,只需单击每个数据集摘要开头的“表”链接即可。
R的基本发行版预先打包了大量不同的数据类型(R2.10中的122)。要获取它们的列表(以及一行描述):
data(package="datasets")同样,大多数包都有几个数据集(有时会更多)。你可以用同样的方式来看待它们:
data(package="latticeExtra")
data(package="vcd")这些数据集是给定软件包的软件包手册和小插图中提到的数据集,并用于说明软件包的功能。
一些包含大量数据集的R包(同样很容易扫描,因此您可以选择您感兴趣的内容):AER、DAAG和vcd。
我发现R的另一个令人印象深刻的地方是它的I/O。假设您想要通过yahoo finance API获得一些非常具体的财务数据。假设从2001年到2009年,标准普尔500指数每个月的收盘价和开盘价都是这样的:
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
"s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 在这一行代码中,R获取了tick数据,将其整形为一个数据帧,并将其绑定到'tick_data‘all。(这是一个很方便的cheat sheet,带有雅虎财经应用编程接口的符号,用于构建上面的URL)
发布于 2010-02-12 21:52:27
http://www.data.gov.uk/data
最近由Tim Berners-Lee设置
显然是基于英国的数据,但这应该无关紧要。涵盖从废弃汽车到缺课到农产品价格指数的一切
https://stackoverflow.com/questions/2252144
复制相似问题