我是一家Facebook集团的会员,负责当地的骑乘股票。该小组针对的是两个城市和中间的一切,所以这个职位(大部分)都是这样的:
明天我要从A市开车到Z城afternoon"
因此,我一直在考虑建立一个简单的搜索引擎的可能方法,人们可以选择一个日期/时间,以及他们需要去的方向。我想,最后,我想要一个结构化的元组,比如{start: 'city A', end: 'city Z', time: '15/04/2020 14:00'}。(我可能会从后置元数据中获得日期。)
我没有那么先进的NLP/文本挖掘技术,可以在生产中实现,所以我在这里寻找一些关于我的想法的意见:
备选方案a):基于规则的办法
StanfordNLP
。
备选方案b):监督学习
classes
。
备选方案c):无监督学习
data
(选项c)是我最喜欢的,也是技术上最有趣的选项,但我刚刚开始阅读这个主题。我对此有一些想法:
。
我会非常感谢一些想法,评论和书面或书籍的建议。在目前所有的停机时间,我希望做一些实际工作,并获得更多的经验,在无监督的学习。
发布于 2020-04-03 01:30:39
这个主意太酷了!我认为如果这些帖子非常公式化的话,选项A可能会运行得很好,但它并不是那么令人兴奋。
选项B,就像你指出的,需要培训数据。
选项C确实不是自动编码器的正确用例,它试图提取潜在的信息,并以某种方式从非结构化数据获取到结构化分类。
我想把我的帽子和选择D放在一起,它结合了所有的3种(或至少B和C)。我建议使用伯特(或它的一些风味,如RoBERTa),它引入了一些选项C,然后在上面抛出一个简单的分类器来进行预测。因为我们使用的是BERT,所以我们可以使用一个非常小的数据集。对于分类的建议,我会掩盖位置名称(使用NER发现),然后做预测。例如,“我从洛杉矶到旧金山”(Spacy将两者兼作GPE,我做了一些测试,实际上它的缩写非常好)会变成“I‘and from A to B或B to A”,然后预测为A到B或B到A,这将减少类并允许多个位置,如果我们有"A到B到C“,就会出现几个分类问题:A到B,B到C,然后再做一次计算,只需改变掩码(技术上需要选择4个计算,选择两个最高的激活,可能会抛出反转)。
我可以通过使用选项A引导数据集,或者更好地自己快速地输入数据集(因为我们使用的是BERT,所以不需要太多的数据)。
至于纸上的推荐,我只是爱上了伯特最近的https://arxiv.org/pdf/1810.04805.pdf。我真的对政治应用很感兴趣,所以我认为TD Parse是一个很棒的https://www.aclweb.org/anthology/E17-1046.pdf。告诉我这个项目进展如何!
https://stackoverflow.com/questions/61002376
复制相似问题