首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从纯文本中提取结构化数据的实用方法:寻找想法和反馈

从纯文本中提取结构化数据的实用方法:寻找想法和反馈
EN

Stack Overflow用户
提问于 2020-04-02 22:46:59
回答 1查看 66关注 0票数 0

我是一家Facebook集团的会员,负责当地的骑乘股票。该小组针对的是两个城市和中间的一切,所以这个职位(大部分)都是这样的:

明天我要从A市开车到Z城afternoon"

  • "Anybody想在下午4点从城市Z ->市A tonight"

  • "Tomorrow加入,我需要从D市开车到Z城市

因此,我一直在考虑建立一个简单的搜索引擎的可能方法,人们可以选择一个日期/时间,以及他们需要去的方向。我想,最后,我想要一个结构化的元组,比如{start: 'city A', end: 'city Z', time: '15/04/2020 14:00'}。(我可能会从后置元数据中获得日期。)

我没有那么先进的NLP/文本挖掘技术,可以在生产中实现,所以我在这里寻找一些关于我的想法的意见:

备选方案a):基于规则的办法

StanfordNLP

  • Build

  • 使用一个普通的NLP库,这是一个典型的预处理管道(停止字删除,.),POS标记etc.

  • Annotate所有我们所知道的城市,并为abbreviations

  • Create定义足够的同义词,以涵盖大多数cases

  • Probably的坚实基线,但与往常一样:边缘情况很可能是乏味的

备选方案b):监督学习

classes

  • Problem

  • 把它变成一个分类问题,“城市A -> Z”和“城市Z -> A”是difficult

  • Not 1:需要一个手写标记的dataset

  • Problem 2: A和Z城市之间的子路线成为difficult

  • Not,真是我最喜欢的选择

备选方案c):无监督学习

data

  • Ideally,,
  • 使用自动编码器从posts
  • 提取有用的信息,不需要手动标记,潜在空间表示将包含我需要的所有信息,

(选项c)是我最喜欢的,也是技术上最有趣的选项,但我刚刚开始阅读这个主题。我对此有一些想法:

  • 如何将自动编码器指向我特别感兴趣的信息?
  • --我读到,使用变分自动编码器,您可以手动设置瓶颈“足够薄”,以便压缩代码包含您要寻找的内容。这是一个反复尝试的过程,还是有任何直觉?
  • 是一个自动编码器,甚至是从文本中进行结构化数据提取的正确选择?
  • ,您看到了我可能错过的其他方法吗?

我会非常感谢一些想法,评论和书面或书籍的建议。在目前所有的停机时间,我希望做一些实际工作,并获得更多的经验,在无监督的学习。

EN

回答 1

Stack Overflow用户

发布于 2020-04-03 01:30:39

这个主意太酷了!我认为如果这些帖子非常公式化的话,选项A可能会运行得很好,但它并不是那么令人兴奋。

选项B,就像你指出的,需要培训数据。

选项C确实不是自动编码器的正确用例,它试图提取潜在的信息,并以某种方式从非结构化数据获取到结构化分类。

我想把我的帽子和选择D放在一起,它结合了所有的3种(或至少B和C)。我建议使用伯特(或它的一些风味,如RoBERTa),它引入了一些选项C,然后在上面抛出一个简单的分类器来进行预测。因为我们使用的是BERT,所以我们可以使用一个非常小的数据集。对于分类的建议,我会掩盖位置名称(使用NER发现),然后做预测。例如,“我从洛杉矶到旧金山”(Spacy将两者兼作GPE,我做了一些测试,实际上它的缩写非常好)会变成“I‘and from A to B或B to A”,然后预测为A到B或B到A,这将减少类并允许多个位置,如果我们有"A到B到C“,就会出现几个分类问题:A到B,B到C,然后再做一次计算,只需改变掩码(技术上需要选择4个计算,选择两个最高的激活,可能会抛出反转)。

我可以通过使用选项A引导数据集,或者更好地自己快速地输入数据集(因为我们使用的是BERT,所以不需要太多的数据)。

至于纸上的推荐,我只是爱上了伯特最近的https://arxiv.org/pdf/1810.04805.pdf。我真的对政治应用很感兴趣,所以我认为TD Parse是一个很棒的https://www.aclweb.org/anthology/E17-1046.pdf。告诉我这个项目进展如何!

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/61002376

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档