我试图从多个来源聚合专业简介信息,强制一致的分类法。具体来说,当前的问题是如何在不一致或不存在绑定分类法术语的概要文件上强制使用首选分类法。
个人资料的主要来源是人们的雇主网站上的传记页面。其中一些网站选择陈述员工的多重专业主题,有些网站只提供叙述性传记,有些则两者兼而有之。我已经收集了所有可用的信息,使用Python的Scrapy,在CSV文件中--每家公司一个,人是行--在可用的地方,我末端的主题现在位于一个逗号分隔的字段/字符串中。
例如:单元格S7是:“分析应用程序、大数据、认知计算、竞争情报、eDiscovery、企业内容管理、信息架构、市场研究、产品信息管理”。
问题有好几方面:
我的目标是创建一个分类法,以更加和谐、一致和简洁的方式对所有收集到的人生物进行分类。
系统设置为PHP/MySQL/WordPress。Profile CSV被导入到WordPress中,并且系统能够对导入的内容(不仅是导入后的WordPress中的信息,而且在通过PHP导入期间)执行PHP功能。
总配置数约为4,500,因此人工分类没有吸引力。所以我研究了人工智能/机器学习技术。我不是一个严格的开发人员,当然也不是一个数据科学家或数学家。
到目前为止,我发现使用Aylien和Monkey进行的文本分类测试的结果很差。在每种情况下,输出结果都不够细,即。把关于诸如云计算基础设施和数据中心这样的颗粒状主题的“生物”术语转化为“计算机和互联网”这类过于基本的术语。艾琳使用现成的IPTC NewsCodes分类法,我知道我可以用猴子学习训练。我喜欢使用标准化的现成分类法(如NewsCodes )的想法,但是( a)结果是有问题的,( b)它可能不足以满足我的需要。
在这一点上,我已经决定制定我喜欢的分类术语的等级,大约230个,它们每个都应该大致地表达一系列不一致的约束术语和概要(换句话说,与人们的主题相关)。这似乎是一个重要的步骤,假设我需要手动引导。但我很难理解如何真正实现这种关联。
所以,我在寻找一些关于最佳方法的指导。
我正在考虑的一个想法是将我自己喜欢的分类法作为分类法术语放到WordPress中,并在每个词的旁边从实际的源材料中放置一组术语,这样,如果在用户的入站数据中找到了相关的术语之一,那么应该指定来自我首选分类法的术语。但我不确定这是否特别有效,甚至是明智的。
这是我第一次在StackExchange的数据科学小组工作。如果我在这里射得太远了,我很抱歉。
发布于 2017-07-27 14:27:18
您可以将每个公司的数据导入特定的表中,然后开发正则表达式脚本,将特定表达式更改为您自己的分类法。https://en.m.wikipedia.org/wiki/Regular_表达式
https://datascience.stackexchange.com/questions/21744
复制相似问题