首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >大数据中的Python?

大数据中的Python?
EN

Software Engineering用户
提问于 2013-01-06 13:29:03
回答 3查看 5.3K关注 0票数 7

python能否在大数据字段中有效地实现?准确地说,我正在构建一个web应用程序,它分析医疗保健领域的大数据,包括医疗历史和大量的个人信息。我需要一些关于如何高效和高性能地处理python中非常大的数据的建议。另外,他们在python中提供的一些开源包在大数据处理方面具有很高的性能和效率吗?

关于用户和数据:每个用户大约有3gb的数据。根据他们的家庭和朋友圈对用户进行分组,然后对数据进行分析,以预测重要信息以及其中的相互关系。目前,我说的是10,000个用户,并且将迅速增加用户数量。

EN

回答 3

Software Engineering用户

发布于 2013-01-06 18:38:41

这是一个非常模糊的问题,没有关于什么是大数据的规范定义。从开发的角度来看,唯一真正改变您需要处理数据的方法是,如果您拥有的数据太多,无法同时将其全部存储在内存中。

有多少问题在很大程度上取决于您需要对数据做什么,对于大多数作业,您可以执行一次传递方案,其中您加载了一个数据块,对它做了任何需要做的事情,卸载它,然后继续到下一个任务。

有时候,问题可以通过组织传递来解决,首先通过将数据组织成需要一起处理的数据块,然后遍历每个块。

如果这个策略不适合您的任务,您仍然可以通过OS处理的磁盘交换获得很长的路,尽可能地以块的方式处理数据,但是如果您需要一些任意的访问,那么它仍然可以工作。

当然,在处理大量数据时,一个总是很好的策略就是在硬件上使它相形见绌。您可以以500美元的价格在16 GB块中获得64 GB内存,如果您正在处理这么多数据,这是一项很容易得到的投资。一些好的SSD是个不需要思考的人。

特例:

这项工作的一个重要部分就是减少每个人3GB的数据。找出可以扔掉的东西本身往往是一门艺术,但考虑到这个数量,我必须假定你有相当数量的批量测量,一般来说,你应该首先为这些数据找到模式和聚合,然后利用这些结果来比较人与人之间的关系。你的大部分原始数据要么是噪音,要么是重复,要么是无关紧要,你必须把它删掉。

这个还原过程很容易适用于一个集群,因为您可以只给每个过程自己的一堆人。

之后的处理要复杂一些,什么是最优取决于许多因素,您可能需要做一些尝试和错误。如果您可以使其适合这项工作,请尝试从同一台计算机上的所有人员中加载选定的数据,并将这些数据进行比较,并与其他计算机上的其他数据进行比较。将这些结果用作新的数据集等。

票数 5
EN

Software Engineering用户

发布于 2013-01-06 14:38:20

这取决于您从处理大数据中需要什么。这个概念比较模糊。例如,如果您谈论的是跨不同数据源的MapReduce作业,那么您可能对将Hadoop流Dumbo图书馆一起使用感兴趣。如果您谈论的是统计分析,那么NumPy和SciPy (如Akira71所提到的)以及熊猫 (一个数据分析工具包)都很有趣。如果您想要绘图,请查看matplotlib

但是,如果您谈论的是大数据的存储和查询,那么Python并不是您的最佳选择。您将需要类似Hadoop生态系统的东西来使其更好地执行,可能在顶层有用于查询和构建中间数据集的层。我真正感兴趣的一个项目是火花;您可能也想看看它。不幸的是,这种类型的应用程序框架没有发挥Python的优势。

票数 3
EN

Software Engineering用户

发布于 2013-01-06 14:09:32

Python在大数据字段中被广泛使用。有几个包往往会被大量使用,它们可能是Python深入大数据的主要原因:

  • NumPy - Python中科学计算的基本包
  • SciPy -数学、科学和工程软件包

考虑到Python既是开源的,又是受欢迎的和易学的,Python在学术界的使用也大大提高了。这反过来又使它越来越多地被学术界和大公司所使用,或者当学生进入工作岗位时,他们会随身带着这些包。

这些都是非常好的包,我在几个项目中接触过它们。我还没有在大数据项目中充分使用Python来回答您关于如何使用Python有效处理大数据的附带问题。

票数 2
EN
页面原文内容由Software Engineering提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://softwareengineering.stackexchange.com/questions/181697

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档