文章/答案/技术大牛

发布

社区首页 >问答首页 >从纯文本中提取结构化数据的实用方法:寻找想法和反馈

问从纯文本中提取结构化数据的实用方法:寻找想法和反馈
EN

Stack Overflow用户

提问于 2020-04-02 22:46:59

回答 1查看 66关注 0票数 0

我是一家Facebook集团的会员，负责当地的骑乘股票。该小组针对的是两个城市和中间的一切，所以这个职位(大部分)都是这样的：

明天我要从A市开车到Z城afternoon"

"Anybody想在下午4点从城市Z ->市A tonight"

"Tomorrow加入，我需要从D市开车到Z城市

因此，我一直在考虑建立一个简单的搜索引擎的可能方法，人们可以选择一个日期/时间，以及他们需要去的方向。我想，最后，我想要一个结构化的元组，比如{start: 'city A', end: 'city Z', time: '15/04/2020 14:00'}。(我可能会从后置元数据中获得日期。)

我没有那么先进的NLP/文本挖掘技术，可以在生产中实现，所以我在这里寻找一些关于我的想法的意见：

备选方案a)：基于规则的办法

StanfordNLP

Build

使用一个普通的NLP库，这是一个典型的预处理管道(停止字删除，.)，POS标记etc.

Annotate所有我们所知道的城市，并为abbreviations

Create定义足够的同义词，以涵盖大多数cases

Probably的坚实基线，但与往常一样:边缘情况很可能是乏味的

。

备选方案b)：监督学习

classes

Problem

把它变成一个分类问题，“城市A -> Z”和“城市Z -> A”是difficult

Not 1:需要一个手写标记的dataset

Problem 2: A和Z城市之间的子路线成为difficult

Not，真是我最喜欢的选择

。

备选方案c)：无监督学习

data

Ideally，，
使用自动编码器从posts
提取有用的信息，不需要手动标记，潜在空间表示将包含我需要的所有信息，

(选项c)是我最喜欢的，也是技术上最有趣的选项，但我刚刚开始阅读这个主题。我对此有一些想法：

如何将自动编码器指向我特别感兴趣的信息？
--我读到，使用变分自动编码器，您可以手动设置瓶颈“足够薄”，以便压缩代码包含您要寻找的内容。这是一个反复尝试的过程，还是有任何直觉？
是一个自动编码器，甚至是从文本中进行结构化数据提取的正确选择？
，您看到了我可能错过的其他方法吗？

。

我会非常感谢一些想法，评论和书面或书籍的建议。在目前所有的停机时间，我希望做一些实际工作，并获得更多的经验，在无监督的学习。

nlp

text-mining

information-retrieval

unsupervised-learning

information-extraction

回答 1

Stack Overflow用户

发布于 2020-04-03 01:30:39

这个主意太酷了！我认为如果这些帖子非常公式化的话，选项A可能会运行得很好，但它并不是那么令人兴奋。

选项B，就像你指出的，需要培训数据。

选项C确实不是自动编码器的正确用例，它试图提取潜在的信息，并以某种方式从非结构化数据获取到结构化分类。

我想把我的帽子和选择D放在一起，它结合了所有的3种(或至少B和C)。我建议使用伯特(或它的一些风味，如RoBERTa)，它引入了一些选项C，然后在上面抛出一个简单的分类器来进行预测。因为我们使用的是BERT，所以我们可以使用一个非常小的数据集。对于分类的建议，我会掩盖位置名称(使用NER发现)，然后做预测。例如，“我从洛杉矶到旧金山”(Spacy将两者兼作GPE，我做了一些测试，实际上它的缩写非常好)会变成“I‘and from A to B或B to A”，然后预测为A到B或B到A，这将减少类并允许多个位置，如果我们有"A到B到C“，就会出现几个分类问题:A到B，B到C，然后再做一次计算，只需改变掩码(技术上需要选择4个计算，选择两个最高的激活，可能会抛出反转)。

我可以通过使用选项A引导数据集，或者更好地自己快速地输入数据集(因为我们使用的是BERT，所以不需要太多的数据)。

至于纸上的推荐，我只是爱上了伯特最近的https://arxiv.org/pdf/1810.04805.pdf。我真的对政治应用很感兴趣，所以我认为TD Parse是一个很棒的https://www.aclweb.org/anthology/E17-1046.pdf。告诉我这个项目进展如何！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61002376

复制

相似问题

问从纯文本中提取结构化数据的实用方法:寻找想法和反馈
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从纯文本中提取结构化数据的实用方法:寻找想法和反馈EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从纯文本中提取结构化数据的实用方法:寻找想法和反馈
EN