文章/答案/技术大牛

发布

社区首页 >问答首页 >度量学习与信息检索

问度量学习与信息检索
EN

Data Science用户

提问于 2015-06-11 07:53:26

回答 1查看 106关注 0票数 4

我对解析半结构化文本很感兴趣。假设我有一个带有类似标签的文本: year_field、year_value、identity_field、identity_value、.、address_field、address_value等等。

这些字段及其相关的值可以在文本中随处可见，但通常它们彼此很接近，更普遍的是，文本在一个(非常)粗糙的矩阵中组织起来，但更多的情况下，这个值只是在关联字段之后，中间有一些不感兴趣的信息。

不同格式的数量最多可达几十个，而且没有那么严格(不要计算间距，而且可以添加和删除一些信息)。

我期待机器学习技术来提取所有感兴趣的(领域，价值)。

我认为度量学习和/或条件随机场(CRF)可能有很大帮助，但我没有实际经验。

有没有人遇到过类似的问题？

关于这个话题有什么建议或文献吗？

text-mining

information-retrieval

回答 1

Data Science用户

发布于 2015-06-19 07:30:04

条件随机场(CRFs)可用于分割/标记序列问题。试试CRF++：另一个CRF工具包，一个简单的、可定制的、开放源代码的条件随机场实现

您可以标记和创建标记的培训语料库，并使用CRF++。

您还需要创建一个功能模板。

有关详细信息，请参阅：http://taku910.github.io/crfpp/。

检查CoNLL共享任务的数据示例(PoS标记)。

票数 1

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/6080

复制

相似问题

问度量学习与信息检索
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问度量学习与信息检索EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问度量学习与信息检索
EN