我有一份职务说明和另一份申请人简历。我计划使用机器学习算法实现一个匹配系统,为每个职位描述找到前5名或前10名申请者。是将数据存储在面向文档的NoSQL db (MongoDB)中还是坚持使用SQL。
考虑到我拥有的数据充其量是半结构化的,我觉得NoSQL db将提供更多的灵活性。我希望对此发表意见。
发布于 2016-03-18 18:48:55
我将使用SQL并创建一组结构化字段,这些字段在所有应用程序中都是常见的(姓名、学校、经验、他们申请的工作等等)。包含原始应用程序的字段,用于数据的“半结构化”部分。对于原始应用程序字段,您总是可以做一些花哨的事情,但是如果您想快速获得一些汇总统计数据,那么SQL是正确的路线。
一般来说,预先仔细考虑一下您的模式将在未来产生很大的好处。只有当你真的不知道如何组织事情,而且时间紧迫的时候,我才会推荐NoSQL。即使获取集合中的键列表,也需要MapReduce。
https://datascience.stackexchange.com/questions/10765
复制相似问题