我正在寻找书籍/教程,帮助您获得对数据分析背后的思想过程的洞察。
我读过的大部分书都是文档--作者向您展示了他应用该函数的一个函数和一些数据。它们还展示了如何使用图表和直方图/盒图等。他们经过像numpy这样的流行图书馆,熊猫,以及如何使用它们。
我感兴趣的是,“泰坦尼克号”上的Kaggle如何从(例如)Kaggle的内核中获得他们的想法,以及如何应用于数据集。这些人知道哪些列是彼此之间的函数,什么时候绘制直方图,什么时候绘制密度函数等等。
我对机器学习有一定的经验。很明显,哪种算法可以应用于何种情况。数据探索似乎是一项非常模棱两可的工作,有许多解决方案/想法。
另一种说法是:从哪里可以得到数据探测的想法?
发布于 2017-06-17 17:26:21
我想更多的是“什么是最能提供信息的(而且容易阅读)的方式来可视化一个特定的问题?”考虑到一个特定的问题,您可以使用它们的示例来探索库的图库,例如海航。您还可以探索另一个内核,以了解人们是如何将其可视化的。对于某些问题,有相当琐碎的解决方案。其他问题可以用很多不同的方式可视化,但重要的是你的情节有多么可读性和信息量。
在泰坦尼克号的情况下,想象三个你想要想象的问题。



发布于 2022-12-31 05:25:05
这取决于你目前在数据分析过程中的能力和复杂程度,以及你对数学和统计的理解程度。
但是如果你已经通过和理解微积分和初等线性代数,或者是高等学院的中级统计学(不一定是你学过学分的实际课程,仅仅相当于材料、时间和精力的严格性),即统计分析和建模,使用多元回归和类似的东西,或者你已经通过了机器学习领域的同等水平,然后交出我所见过的最好的这类书是一本手册,我相信它有7到8个版本,我相信它被称为“经济计量学指南”。
在我看来,每个技术领域都应该有这样的书籍,它充满了洞察力、经验法则、行业工具和通用语言解释,而不需要证明如何进行分析,以及在实践中通常会发生什么,而不是在教科书中!
除了那本书之外,我还建议你看看纳西姆·塔勒布关于风险、概率、现实世界中的决策、应用转移以及其他方面的任何一本流行书籍。他们的头衔是:
https://datascience.stackexchange.com/questions/19786
复制相似问题