有人指出,ggplot2是一种有效的数据可视化工具,它非常有用,但我正试图完全理解我所做的事情,而且我在寻找合适的资源来告诉我一些困难。
library(ggplot2)
bone <- read.csv('/Users/kylehammerberg/Desktop/ML Extra Credit/spnbmd.csv')
### Generate scatter plot of data
ggplot(bone) + aes(age, spnbmd, color=sex) + geom_point()
### Fit splines to both male and female bone density data
### geom_point to create scatter plot
### geom_smooth to fit splines
ggplot(bone) + aes(age, spnbmd, color=sex) + geom_point() +
geom_smooth(formula = y~splines::bs(x, knots=c(10,15,20)), method="lm")
### Fit splines to bone density by race
ggplot(bone) + aes(age, spnbmd, color=ethnic) + geom_point() +
geom_smooth(formula = y~splines::bs(x, knots=c(10,15,20)), method="lm")我不知道代码的bs()部分到底在做什么,我想更好地理解生成的样条周围的阴影区域。它们是某种置信区间吗?

发布于 2021-03-29 01:37:20
他们是。
R中的帮助函数是有帮助的。
help(geom_smooth)
help( "bs::splines" )虽然不是很简单地说明了阴影区域是什么,但geom_smooth手册页将在se参数中告诉您:
se: Display confidence interval around smooth? (‘TRUE’ by
default, see ‘level’ to control.)同样,对于这样的例子,它基本上是给定的,阴影区域实际上是某种不确定的表示。
bs::splines的手册页将告诉您它创建了一个B样条。说什么是和不是是超出了这个网站的范围。你在stats.stackexchange.com会有更好的运气,而且就维基百科而言:
但是可以说,他们构造了那些你看到的坚实的线条,在某种程度上是它背后数据的运行平均值。在您的情况下,根据您指定的颜色为每个组单独完成。
https://stackoverflow.com/questions/66847676
复制相似问题