首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >为自然语言文本分类建立训练数据集?

为自然语言文本分类建立训练数据集?
EN

Data Science用户
提问于 2018-05-11 18:23:22
回答 2查看 237关注 0票数 3

我从课程平台上的11门免费课程中提取了~550视频脚本(字幕)。我已经从punctuation删除、停止词删除、标记化、词干和柠檬化()方面对它们进行了预处理。现在,我被告知,在我的任务中,我可以尝试使用一个简单的单词Bag 。然而,我不知道这将如何帮助我将我的文本从的六个类别中分类为one。这些类别与制作视频材料的意图有关,更准确地说,哪一部分解释了一个概念,哪些部分讨论了一个例子,哪些部分给出了实际的建议等等。以下是我的分类:

ConceptDescription->的主要概念解释(S) ConceptMention->提出了一个概念,相关的主要概念Methodology / Technique->来实现一些东西,应该做什么Summary->摘要的讨论材料或整个课程Application->实用建议为概念Example->的概念示例。

通过手动阅读3个课程中的几个文件,我创建了一本字典,其中包含口语单词,它可以帮助我识别特定的句子/段落属于哪一类。但是,<#>I没有用于分类器的训练数据集。所以我的想法是用字典给我的数据贴上标签,例如,句子1为Summary,句子4为ConceptDescription,句子12为Example,然后将句子2和3标记为1,5-11句类似于句子4等等。

我的问题是,这个想法是不是太逊了?is --有一种方法可以以一种非人工的方式至少创建一个平均质量培训数据集?或<#>if手动检查是唯一的选择,是否有一种选择,我只需要对一小部分文件进行手工标记--比如说,550份文件中的50份,分类仍然能产生平均的好效果吗?我不追求完美的结果,但由于时间有限,我的目标是更少的时间消耗。

我也和tf-国防军打过一场比赛,它输出了一些条款,但当然,并不是我真正需要的,所以这有点随意。

提前谢谢你的帮助。非常欢迎<#>Any特定的想法和算法。

EN

回答 2

Data Science用户

回答已采纳

发布于 2018-05-14 18:26:22

它将有助于对脚本进行一些分析,以确定区分不同类别的方面。对于一些示例,手动完成这些操作之后,您可以考虑根据观察结果编写一些规则。其余的示例可以使用规则进行标记。对于基于模型的方法,如果标记一小组示例(~50),则标记一个简单的模型(朴素贝叶斯,等等)。可能会在这些方面受到训练。

票数 1
EN

Data Science用户

发布于 2018-05-14 18:46:23

因为您知道标签的数量(6),所以可以使用K-指算法将数据聚为6个组。我建议您使用tfidf方法来表示每个方法。您可以使用雪橇函数实现代码。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/31545

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档