首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >用于运行统计分析的数据集

用于运行统计分析的数据集
EN

Stack Overflow用户
提问于 2010-02-12 21:46:57
回答 17查看 10.7K关注 0票数 40

我可以在互联网上运行统计分析的数据集是什么?

EN

回答 17

Stack Overflow用户

发布于 2010-02-12 22:31:26

datasets程序包包含在基本R中。运行以下命令可查看完整列表:

代码语言:javascript
复制
library(help="datasets")

除此之外,还有许多可以提取数据的包,还有许多包含重要数据的包。其中,您可能想要从查看包开始,它“提供了一组在统计和数据可视化历史上非常有趣和重要的小型数据集”。

对于金融数据,the quantmod package提供了一个公共接口,用于从谷歌、雅虎、弗雷德和其他公司提取时间序列数据:

代码语言:javascript
复制
library(quantmod)
getSymbols("YHOO",src="google") # from google finance 
getSymbols("GOOG",src="yahoo") # from yahoo finance 
getSymbols("DEXUSJP",src="FRED") # FX rates from FRED 

FRED (the Federal Reserve of St. Louis)真的是自由经济数据的宝库。

许多R包都捆绑了特定于其目标的数据。因此,如果您对遗传学、多层模型等感兴趣,相关的软件包将经常提供用于该分析的规范示例。此外,书包通常附带重现所有示例所需的数据。

以下是一些相关包的示例:

  • alr3:包括应用线性回归的数据(http://www.stat.umn.edu/alr)
  • arm:包括来自赫尔曼的“使用回归和多层/分层模型进行数据分析”的一些数据(其余数据和代码在the book's website)
  • BaM:上)包括来自“贝叶斯方法:社会科学和行为科学Approach"
  • BayesDA:包括来自赫尔曼的数据”的贝叶斯数据Analysis"
  • cat:包括用于分类变量分析的数据从CIMIS检索数据的datasets
  • cimis:,加州灌溉管理信息System
  • cshapes:包括地理信息系统数据边界和econometrics
  • ElemStatLearn:的data
  • ecdat:数据集包括来自“统计学习,数据挖掘,推理,和“生态模型和Prediction"
  • emdbook:数据”一书中的“生态模型和Data"
  • Fahrmeir:数据”一书中的“基于广义线性Models"
  • fEcoFin:的多变量统计建模”“经济和金融数据集”中的Rmetrics
  • fds:函数数据和“预测:广义加性模型的方法和applications"
  • gamair:数据”中的数据集: An Introduction with R"
  • geomapdata:data for地形和地质MappingH256
  • nytR:通过《纽约时报》提供对国会投票数据的访问。来自book
  • primer:的数据包括以下数据:"A Primer of Ecology with R"
  • qtlbook:includes data for R/qtl book
  • RGraphics:includes data to the "R Graphics“book
  • Read.isi:access to old World
  • nutshell
票数 47
EN

Stack Overflow用户

发布于 2010-02-12 22:37:59

在网络上有广泛的选择。例如,这里有一个庞大的sports databases目录(都是免费提供数据的,至少这是我的经验)。在该目录中是databaseBaseball.com,其中包含大约从1915年开始打过职业棒球的每个球员的complete datasets

StatLib是另一个极好的资源--非常方便。这个单独的web page列出了超过100个数据库的4-5行摘要,所有这些摘要都以平面文件的形式提供,只需单击每个数据集摘要开头的“表”链接即可。

R的基本发行版预先打包了大量不同的数据类型(R2.10中的122)。要获取它们的列表(以及一行描述):

代码语言:javascript
复制
data(package="datasets")

同样,大多数包都有几个数据集(有时会更多)。你可以用同样的方式来看待它们:

代码语言:javascript
复制
data(package="latticeExtra")
data(package="vcd")

这些数据集是给定软件包的软件包手册和小插图中提到的数据集,并用于说明软件包的功能。

一些包含大量数据集的R包(同样很容易扫描,因此您可以选择您感兴趣的内容):AER、DAAG和vcd。

我发现R的另一个令人印象深刻的地方是它的I/O。假设您想要通过yahoo finance API获得一些非常具体的财务数据。假设从2001年到2009年,标准普尔500指数每个月的收盘价和开盘价都是这样的:

代码语言:javascript
复制
tick_data = read.csv(paste("http://ichart.finance.yahoo.com/table.csv?",
    "s=%5EGSPC&a=03&b=1&c=2001&d=03&e=1&f=2009&g=m&ignore=.csv")) 

在这一行代码中,R获取了tick数据,将其整形为一个数据帧,并将其绑定到'tick_data‘all。(这是一个很方便的cheat sheet,带有雅虎财经应用编程接口的符号,用于构建上面的URL)

票数 7
EN

Stack Overflow用户

发布于 2010-02-12 21:52:27

http://www.data.gov.uk/data

最近由Tim Berners-Lee设置

显然是基于英国的数据,但这应该无关紧要。涵盖从废弃汽车到缺课到农产品价格指数的一切

票数 6
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2252144

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档