文章/答案/技术大牛

发布

社区首页 >问答首页 >文本挖掘-从非结构化文本中提取波段名称

问文本挖掘-从非结构化文本中提取波段名称
EN

Stack Overflow用户

提问于 2011-07-13 04:13:51

回答 2查看 2K关注 0票数 2

我意识到这是一个普遍的、开放式的问题。我本质上是在寻找帮助，以决定前进的道路，也许还会有一些阅读材料。

我正在研究一种算法，它可以进行非结构化文本挖掘，并试图从文本中提取特定的内容-乐队的名称(单曲艺术家、乐队等)。文本本身没有可预测的结构，但它相对较小(1，2行文本)。

一些示例可能是(不是真实事件)：

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

现在，我正在考虑尝试分类器，但文本似乎太小，无法为其提供任何真实的训练信息。可能还有其他几种文本挖掘技术、启发式算法或算法可以为这类问题产生良好的结果(或者可能没有算法会)。

named-entity-recognition

text

nlp

text-mining

回答 2

Stack Overflow用户

发布于 2011-07-13 19:43:38

由于数据结构的原因，预先训练的模型可能会表现不佳。此外，一般的组织、位置和人员类别可能对您没有用处。

我不认为文本本身太小，大多数NER系统一次只能处理一个句子。因此，使用NER库提供您自己的训练集可能效果很好，比如http://nlp.stanford.edu/ner/index.shtml

如果你不想创建一个训练集，你需要一个包含所有乐队/艺术家的字典。那么你显然找不到不知名的乐队/艺术家。

票数 2

Stack Overflow用户

发布于 2015-06-29 05:05:33

有一个简单的NER算法可以简化任务:获取可能是(或不是)命名实体的单词，并在Google或Yahoo (通过API)中搜索它们两次:作为单独的单词和精确的短语(即带引号)。除以结果的数量。有一个阈值(<30)来确定单词是否构成命名实体。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/6670498

复制

相似问题

问文本挖掘-从非结构化文本中提取波段名称
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本挖掘-从非结构化文本中提取波段名称EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问文本挖掘-从非结构化文本中提取波段名称
EN