文章/答案/技术大牛

发布

社区首页 >问答首页 >如何处理此机器学习/NLP上下文感知文本分类项目？见下面的说明

问如何处理此机器学习/NLP上下文感知文本分类项目？见下面的说明
EN

Stack Overflow用户

提问于 2017-11-01 10:57:45

回答 1查看 287关注 0票数 1

我是机器学习和NLP方面的新手。我的大学项目需要帮助。这实际上是一个重大项目的子任务。说明如下：

这是一个分类问题。我将得到一个项目，我必须预测的商店类型，从哪里可以买到的东西。

示例：

项目类标签(商店类型)

 Pencil -> book store

 Beer -> bar

 Cash -> ATM

 Tube Light -> electronics store

 Medicine -> pharmacy

我得到了许多不同的标签，如stationary_shop，book_store，面包店，药房等(大约50个标签)

问题面临的-

我没有更大的数据集。我独自构建了一个小数据集。
我对机器学习和NLP技术不太了解，比如如何解决这个问题。
如何做出正确的预测？例如，如果我的数据集中有(铅笔，book_store)，并且它被赋予锐器作为输入，它必须将标签预测为book_store，因为卷笔刀与铅笔密切相关。

我的接近

我从一个小数据集开始，然后使用数据使用 api通过查找给定单词的相关单词来扩展它。就像。我从API中提取了所有与铅笔相关的单词，并用相同的标签book_store标记它们。然后，我使用fastText生成一个预测模型，但我没有得到预期的结果。

小数据集

数据集格式：(例如，class_label)

soap，department_store

铅笔，book_store

pen，book_store

茶，department_store

咖啡，department_store

灯泡，electronics_store

电池，electronics_store

图贝尔角( electronics_store )

医药、药房

书，book_store

钱，银行

现金、自动取款机

花卉，花店

水果，grocery_or_supermarket

蛋糕，面包店

衣服，clothing_store

纸，book_store

珠宝，jewelry_store

洗发水，department_store

石油，department_store

糖，department_store

啤酒、酒吧

威士忌，酒吧

酒精，酒吧

理发，beauty_salon

咖啡、咖啡厅

三明治，咖啡馆

糕点，面包店

西服，clothing_store

鞋，shoe_store

沙发，furniture_store

椅子，furniture_store

床，furniture_store

汽油，gas_station

柴油，gas_station

工具，hardware_store

管道，hardware_store

坦克，hardware_store

洗衣，洗衣

干洗，洗衣

项链，jewelry_store

环，jewelry_store

装饰品，jewelry_store

晚餐，餐厅

午餐，餐厅

pet，veterinary_care

晶片，department_store

machine-learning

neural-network

nlp

text-classification

supervised-learning

回答 1

Stack Overflow用户

发布于 2017-12-05 07:22:39

由于您的问题是基于文本数据的分类，首先您有划分培训(70%)和测试数据(30%)，然后首先查找(例如，class_label)您的数据集格式.

步骤(1)--这里class_label也是文本格式，所以您必须给它们加上numeric...for示例--> department_store==1，book_store==2，electronics_store==3，shoe_store==4....and等等，用这种格式标记所有这些.

步骤(2)--在此之后，从(例如，class_label)数据集格式中寻找您的示例，因为这些示例也是文本格式，因此我们必须使它们也是数字的(记住机器学习算法只对数字数据工作，因此我们必须将所有文本数据转换为数字格式)。这里要使用CountVectorizer()..give来处理文本数据--看看这些文档这些链接将指导您如何执行特征提取。

从文本数据中提取特征后，使用任何分类算法(请记住，您必须执行多类分类，因为您的数据集类是算法的multiple....all，因此您必须使用(一比一)或(一比一) 看一下这些链接。

我更喜欢支持向量机(SVM)的培训(占您总数据的70%)，因为您有较小的数据集。用于测试的支持向量机对剩余数据执行步骤(2)(占总数据的30%)

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47053299

复制

相似问题

问如何处理此机器学习/NLP上下文感知文本分类项目？见下面的说明
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理此机器学习/NLP上下文感知文本分类项目？见下面的说明EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何处理此机器学习/NLP上下文感知文本分类项目？见下面的说明
EN