我是机器学习和NLP方面的新手。我的大学项目需要帮助。这实际上是一个重大项目的子任务。说明如下:
这是一个分类问题。我将得到一个项目,我必须预测的商店类型,从哪里可以买到的东西。
示例:
项目类标签(商店类型)
Pencil -> book store Beer -> bar Cash -> ATM Tube Light -> electronics store Medicine -> pharmacy我得到了许多不同的标签,如stationary_shop,book_store,面包店,药房等(大约50个标签)
问题面临的-
我的接近
我从一个小数据集开始,然后使用数据使用 api通过查找给定单词的相关单词来扩展它。就像。我从API中提取了所有与铅笔相关的单词,并用相同的标签book_store标记它们。然后,我使用fastText生成一个预测模型,但我没有得到预期的结果。
小数据集
数据集格式:(例如,class_label)
soap,department_store
铅笔,book_store
pen,book_store
茶,department_store
咖啡,department_store
灯泡,electronics_store
电池,electronics_store
图贝尔角( electronics_store )
医药、药房
书,book_store
钱,银行
现金、自动取款机
花卉,花店
水果,grocery_or_supermarket
蛋糕,面包店
衣服,clothing_store
纸,book_store
珠宝,jewelry_store
洗发水,department_store
石油,department_store
糖,department_store
啤酒、酒吧
威士忌,酒吧
酒精,酒吧
理发,beauty_salon
咖啡、咖啡厅
三明治,咖啡馆
糕点,面包店
西服,clothing_store
鞋,shoe_store
沙发,furniture_store
椅子,furniture_store
床,furniture_store
汽油,gas_station
柴油,gas_station
工具,hardware_store
管道,hardware_store
坦克,hardware_store
洗衣,洗衣
干洗,洗衣
项链,jewelry_store
环,jewelry_store
装饰品,jewelry_store
晚餐,餐厅
午餐,餐厅
pet,veterinary_care
晶片,department_store
发布于 2017-12-05 07:22:39
由于您的问题是基于文本数据的分类,首先您有划分培训(70%)和测试数据(30%),然后首先查找(例如,class_label)您的数据集格式.
步骤(1)--这里class_label也是文本格式,所以您必须给它们加上numeric...for示例--> department_store==1,book_store==2,electronics_store==3,shoe_store==4....and等等,用这种格式标记所有这些.
步骤(2)--在此之后,从(例如,class_label)数据集格式中寻找您的示例,因为这些示例也是文本格式,因此我们必须使它们也是数字的(记住机器学习算法只对数字数据工作,因此我们必须将所有文本数据转换为数字格式)。这里要使用CountVectorizer()..give来处理文本数据--看看这些文档这些链接将指导您如何执行特征提取。
从文本数据中提取特征后,使用任何分类算法(请记住,您必须执行多类分类,因为您的数据集类是算法的multiple....all,因此您必须使用(一比一)或(一比一) 看一下这些链接。
我更喜欢支持向量机(SVM)的培训(占您总数据的70%),因为您有较小的数据集。用于测试的支持向量机对剩余数据执行步骤(2)(占总数据的30%)
https://stackoverflow.com/questions/47053299
复制相似问题