我喜欢在“表”中组织大量来自文献综述的信息(与产品比较类似的信息,但用于科学研究),但通常我输入的信息可能包含几行或几段文字,在电子表格中变得笨拙。我听说SQL关系表经常用于此目的;为了进行数据分析,我使用Python或R来解析纯文本文件中的数据,并将其输入到SQLite中。我应该创建一个“标记的”文本文件,然后做同样的事情吗?我想知道人们使用什么界面来进入和查看这样的文本繁重的表格?或者,我想知道是否有其他软件可能适合这一目的。
发布于 2010-01-10 02:16:57
存储和检索数据的方式将取决于您计划如何处理这些数据。
文本文件在可管理性方面存在问题。您无法真正处理包含成千上万个文件的目录树。搜索它们将是一场噩梦。如果你同时更新,你将不得不处理锁和许多其他问题。它们实际上并不是用来存储您将要挖掘的大量数据的。
关系数据库很好,但您必须将信息解析为有意义的位,将其分解为关系,并将结果数据放入表中,才能使其有意义。将所有文本(经过一些预处理)转储到单个列中并不是很有用。我所说的结果是SQL数据库存储“结构化”数据,这些数据可以使用结构进行查询。
您可能考虑的另一个想法是使用文档数据库。有相当多,虽然我没有个人经验,但我听过一个关于CouchDB的演讲,它将信息存储为JSON文档。您可以使用脚本挖掘数据,这些脚本可以根据某些条件进行排序,然后返回排序后的文档。如果你正在处理大量的文本数据,这至少是值得一试的。有传言说,这些引擎比它们的关系型引擎更具可伸缩性。
https://stackoverflow.com/questions/2034330
复制相似问题