我对解析半结构化文本很感兴趣。假设我有一个带有类似标签的文本: year_field、year_value、identity_field、identity_value、.、address_field、address_value等等。
这些字段及其相关的值可以在文本中随处可见,但通常它们彼此很接近,更普遍的是,文本在一个(非常)粗糙的矩阵中组织起来,但更多的情况下,这个值只是在关联字段之后,中间有一些不感兴趣的信息。
不同格式的数量最多可达几十个,而且没有那么严格(不要计算间距,而且可以添加和删除一些信息)。
我期待机器学习技术来提取所有感兴趣的(领域,价值)。
我认为度量学习和/或条件随机场(CRF)可能有很大帮助,但我没有实际经验。
有没有人遇到过类似的问题?
关于这个话题有什么建议或文献吗?
发布于 2015-06-19 07:30:04
条件随机场(CRFs)可用于分割/标记序列问题。试试CRF++:另一个CRF工具包,一个简单的、可定制的、开放源代码的条件随机场实现
您可以标记和创建标记的培训语料库,并使用CRF++。
您还需要创建一个功能模板。
有关详细信息,请参阅:http://taku910.github.io/crfpp/。
检查CoNLL共享任务的数据示例(PoS标记)。
https://datascience.stackexchange.com/questions/6080
复制相似问题