我们是CS学生,我们正在为我们的家庭医生开发一个推荐系统。我们的数据集包含用户和他们访问过的地方,我们希望使用NLP将这些地方转换为活动。例如。(商场->购物,俱乐部-> Playing...)诸若此类。此外,如果用户写下评论,我们就可以知道他们在做什么活动。
我们在这一点上有点迷茫,想知道我们应该从哪里开始,或者我们应该开始搜索什么?
谢谢。
发布于 2016-06-12 12:04:47
与大多数此类问题一样,有两种途径:
手写
初始成本最低但可伸缩性最小的方法是手动定义与数据集中每个位置相关联的操作,并将它们存储在字典中。如果唯一位置的数量很少,您可能只需很少的努力就可以完成所有相关的操作。也可以使用像Mechanical Turk这样的任务租用服务(您可能希望为每个位置聚合多个答案,以过滤出低质量的关联)。
机器提取的
另一种方法是使用一些NLP算法来学习/提取基于大量示例的适当位置。如果不存在satsifactory数据集,那么您将需要创建自己的数据集(这是第一种方法,工作量也很大)。一旦你有了语料库,你就需要做一些语义角色标记,一个好的介绍可以在here找到。
https://stackoverflow.com/questions/37770274
复制相似问题