我目前正在学习自然语言处理的基础知识。我看到这方面的许多任务是为句子中的每个单词指定标签,包括POS标记、分块、命名实体识别和语义角色标记。
我的问题是
发布于 2019-05-19 02:11:00
基本上,你需要了解NLP中的无监督学习任务。为此,我们主要使用嵌入矩阵对输入语句进行矢量化。
许多系统都使用了不基于神经网络的文本摘要。这些系统根据输入的重要性,采用排序算法(如TextRank )和余弦相似度对句子进行矢量化排序。然后把最重要的句子作为输出给出。您可以阅读更多的这里。
两个文档之间的
如果您有一个强大的文档向量器(如Doc2Vec ),那么类似文档的向量是相似的,并且有一定的分数。这个分数可以用余弦相似度来计算。
科技博客与基于计算机科学的博客有更高的相似性,而不是假日/旅游博客。
这类系统在许多用例中都很有用。聚类算法也在这里得到了应用。
为了训练情感分析模型,您需要一个由文本及其相应的情感(分类或二进制)组成的数据集。这种模式不能通过聚类或排序方法来实现。但是,是的,这些模型和其他模型一样使用单词嵌入。
下分类的基本任务的一些链接
https://datascience.stackexchange.com/questions/52167
复制相似问题