首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理此机器学习/NLP上下文感知文本分类项目?见下面的说明

如何处理此机器学习/NLP上下文感知文本分类项目?见下面的说明
EN

Stack Overflow用户
提问于 2017-11-01 10:57:45
回答 1查看 287关注 0票数 1

我是机器学习和NLP方面的新手。我的大学项目需要帮助。这实际上是一个重大项目的子任务。说明如下:

这是一个分类问题。我将得到一个项目,我必须预测的商店类型,从哪里可以买到的东西。

示例:

项目类标签(商店类型)

代码语言:javascript
复制
 Pencil -> book store
代码语言:javascript
复制
 Beer -> bar
代码语言:javascript
复制
 Cash -> ATM
代码语言:javascript
复制
 Tube Light -> electronics store
代码语言:javascript
复制
 Medicine -> pharmacy

我得到了许多不同的标签,如stationary_shop,book_store,面包店,药房等(大约50个标签)

问题面临的-

  1. 我没有更大的数据集。我独自构建了一个小数据集。
  2. 我对机器学习和NLP技术不太了解,比如如何解决这个问题。
  3. 如何做出正确的预测?例如,如果我的数据集中有(铅笔,book_store),并且它被赋予锐器作为输入,它必须将标签预测为book_store,因为卷笔刀与铅笔密切相关。

我的接近

我从一个小数据集开始,然后使用数据使用 api通过查找给定单词的相关单词来扩展它。就像。我从API中提取了所有与铅笔相关的单词,并用相同的标签book_store标记它们。然后,我使用fastText生成一个预测模型,但我没有得到预期的结果。

小数据集

数据集格式:(例如,class_label)

soap,department_store

铅笔,book_store

pen,book_store

茶,department_store

咖啡,department_store

灯泡,electronics_store

电池,electronics_store

图贝尔角( electronics_store )

医药、药房

书,book_store

钱,银行

现金、自动取款机

花卉,花店

水果,grocery_or_supermarket

蛋糕,面包店

衣服,clothing_store

纸,book_store

珠宝,jewelry_store

洗发水,department_store

石油,department_store

糖,department_store

啤酒、酒吧

威士忌,酒吧

酒精,酒吧

理发,beauty_salon

咖啡、咖啡厅

三明治,咖啡馆

糕点,面包店

西服,clothing_store

鞋,shoe_store

沙发,furniture_store

椅子,furniture_store

床,furniture_store

汽油,gas_station

柴油,gas_station

工具,hardware_store

管道,hardware_store

坦克,hardware_store

洗衣,洗衣

干洗,洗衣

项链,jewelry_store

环,jewelry_store

装饰品,jewelry_store

晚餐,餐厅

午餐,餐厅

pet,veterinary_care

晶片,department_store

EN

回答 1

Stack Overflow用户

发布于 2017-12-05 07:22:39

由于您的问题是基于文本数据的分类,首先您有划分培训(70%)和测试数据(30%),然后首先查找(例如,class_label)您的数据集格式.

步骤(1)--这里class_label也是文本格式,所以您必须给它们加上numeric...for示例--> department_store==1,book_store==2,electronics_store==3,shoe_store==4....and等等,用这种格式标记所有这些.

步骤(2)--在此之后,从(例如,class_label)数据集格式中寻找您的示例,因为这些示例也是文本格式,因此我们必须使它们也是数字的(记住机器学习算法只对数字数据工作,因此我们必须将所有文本数据转换为数字格式)。这里要使用CountVectorizer()..give来处理文本数据--看看这些文档这些链接将指导您如何执行特征提取。

从文本数据中提取特征后,使用任何分类算法(请记住,您必须执行多类分类,因为您的数据集类是算法的multiple....all,因此您必须使用(一比一)或(一比一) 看一下这些链接

我更喜欢支持向量机(SVM)的培训(占您总数据的70%),因为您有较小的数据集。用于测试的支持向量机对剩余数据执行步骤(2)(占总数据的30%)

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47053299

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档