我想开发某种模型/算法,允许我提取给定产品名称的特征。(比方说品牌、款式和颜色)。
我正在寻找一个类似的解决方案提供的MonkeyLearn和它的模型笔记本功能提取。
例如:
考虑到"Apple iPhone 6s,64 It银“项目,它应该计算:
{
brand: "iPhone",
model: "6s",
capacity: "64Gb",
color: "Silver"
}如有任何建议,将不胜感激。谢谢。
发布于 2019-02-05 12:09:03
您需要寻找的是所谓的“命名实体识别”。来自维基百科
命名-实体识别(NER) (也称为实体识别、实体块和实体提取)是信息提取的一个子任务,目的是将非结构化文本中提到的命名实体定位和分类为预先定义的类别,如人名、组织、位置、医疗代码、时间表示、数量、货币价值、百分比等。
已经有受过训练的模型,但大多数都是通用的。例如在Python中
import spacy
nlp = spacy.load('en_core_web_sm')
doc = nlp('European authorities fined Google a record $5.1 billion on Wednesday for abusing its power in the mobile phone market and ordered the company to alter its practices')
print([(X.text, X.label_) for X in doc.ents])输出是
[('European', 'NORP'),
('Google', 'ORG'),
('$5.1 billion', 'MONEY'),
('Wednesday', 'DATE')]代码来源:TowardsDataScience
在你的情况下,你要么自己训练一个人的电话规格,要么找到一个在公共场合可用。
https://datascience.stackexchange.com/questions/41246
复制相似问题