首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >单词或短语的自动标注

单词或短语的自动标注
EN

Stack Overflow用户
提问于 2016-09-23 09:20:59
回答 1查看 1.1K关注 0票数 0

我想用列表中定义的单词/短语之一自动标记一个单词/短语。我的列表中包含了大约230个columnA中的单词,它们都是在columnB中标记的。大约有16个独特的标签,这230个单词中的每一个都加上了这16个标签中的一个。

看看我的单子:

A栏中的词语/短语在B栏中标记为单词/短语。

不时会添加新单词,必须手动为其指定标记。我想要建立一个预测算法/模型,自动标记新单词(或建议)。因此,如果我写一个新词,让我们说“A36”,那么它就应该将标签预测为“托管存款”(B36),而不是“运营准备金”(B33)。我应该如何准确地预测新单词的标签,即使这些单词与其实际标签中的单词不匹配?如果有人愿意看完整的名单,我可以高兴地分享。

EN

回答 1

Stack Overflow用户

发布于 2016-09-23 14:05:11

短版

我认为你的问题有点不明确,没有一个简短的编码或宏观答案。考虑到每一项包含如此少的信息,我认为不可能从您的源数据构建一个良好的预测模型。相反,做一次标记练习,看看将来如何控制标签。

长版

以下是我将采取的步骤,以创建一个预测模型,以及为什么我认为你不能这样做。

  1. 理解为什么您希望在上有一个预测程序

你为什么需要一个预测程序?您是否正在对数百条或数千条记录进行排序,这些记录都在更改,需要进行标记?如果是这样的话,我同意,你不会想手动做这件事。

如果这是一次性的练习,因为随着时间的推移,标签已经从原来的意义上被破坏了,你的问题是你的标签已经被破坏了,而不是你需要以某种方式预测每个项目应该被标记的位置。你应该考虑控制标签的使用,而不是预测未来人们可能会错误地或错误地命名一些东西。

不要忘记,Excel中有很多工具可以使问题更容易解决。比方说,你肯定知道,所有带有“现金”的项目都一定会转到“运营现金”(Operating)。把一个AutoFilter放在列表上,过滤‘现金’-现在只需复制和粘贴‘经营现金’旁边的所有这些。这样,您就可以快速地从列表中去掉那些显而易见的问题,并将精力集中在那些棘手的问题上。

  1. 理解要使用的标记的特征.

花点时间看看你正在使用的标签--它们每一个都意味着什么?该标记所代表的唯一特性或功能组合是什么?

例如,您的标签'Operating Cash‘具有现金的特性(即不太快地被捆绑使用)和指定用于操作的特性。从这些,我们可能会得出进一步的特点,它是在某个地方,或某个人对此负有责任。

如果您有更多的源数据需要继续,您也许可以使用“创建的年份”或“客户”这样的字段来帮助您进一步分类。

  1. 理解您想要标记的项目是什么,可以让您知道它们应该去哪里。

这是你最大的问题。一个快速的例子-- "MIP储备“字符串中的什么给出了任何线索,表明它应该与”托管存款“挂钩?您没有简单的方法来匹配列表中的许多项--在多个标记中出现多个单词。

然而,试着寻找唯一的标识符,这将给你提供线索-例如,所有项目的‘开发人员’似乎被标记为‘开发商费注和兴趣’。你还有这些吗?使用这些来减少您的问题,因为它们应该是一个简单的映射。

任何唯一标识符都将允许您为这些字符串设置规则。你甚至不需要坚持一个词--也许当你看到几个单词时,你可以把它缩小到最后的位置。例如,当我看到“鸡蛋”时,它可能会变成“鸟”或“爬行动物”,但如果“蛋”和“翅膀”成对,我可以相当确信它是“鸟”。

您需要将要标记的项的特征与步骤1中开发的标记的唯一标识符相匹配。

  1. 编写程序或宏以查找步骤2中的标识符,并返回步骤1.中的相关标记。

这是直截了当的。寻找您想要的标识符(例如,使用“现金”,包含“非常重要的客户”标签),并在前面的标签中寻找最佳匹配。

确保捕获任何错误-如果没有找到标记会发生什么?它能创造一个新的吗?它推荐联系你寻求帮助吗?如果有多个标签相关,会发生什么情况?你的决断标准是什么?

但要注意..。

  1. 理解如何控制这些唯一标识符的使用.

假设您设法想出了一个唯一标识符的列表。你将如何控制它们的使用?如果你决定把任何带有“现金”字样的物品寄到“运营现金”标签上,然后一年后,有人出现并制造了一个项目“资本现金”,因为他们想要把即将花在资本项目上的现金放在某个地方,你该如何阻止这种情况?你将如何控制这些词的使用?

您将需要有效地控制项目命名系统,并建立一个商定的识别单词列表。每当有人制造一个项目时,他们都需要在某个地方包含您的标识符。我可以告诉你这是行不通的。要么他们会使用错误的词,而你最终会手动做它无论如何,或者他们会打电话给你困惑,你最终将手动做它。

如果你是唯一这样做的人,只要做一次练习,按照你自己的标准(记录)并坚持这个标准。当你需要交出它的时候,它是清晰有序的,也是有意义的。如果不止一个人这样做,那么在你和团队之间做一次练习,然后商定一种控制它的方法。

编写一个预测程序听起来很棒,可能会节省你一些时间。但是考虑一下你为什么要写它。你将来可能需要不断地给账户贴上标签吗?如果是这样,则集中控制它们的命名,并使其在生成时必须使用标记。如果不是,你为什么要写一个程序来做这个呢?就这么做一次,手动。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/39657146

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档