我正在阅读关于Google预测API的文章,我无法理解其中的一部分文档。
在用例中,我被困在了这个部分:
每一行只能分配一个标签,但您可以通过重复一个示例并对每个示例应用不同的标签,将多个标签应用于一个示例。例如:“兴奋”,“天哪!刚刚度过了美妙的一天!”“真烦人”,“天哪!今天过得真棒!”如果你发一条推特给这个模型,你可能会得到这样的分类:“兴奋”:0.6,“烦人”:0.2。
为什么它会写“兴奋”:0.6,“烦人”:0.2,而没有更多关于兴奋的特性。为什么更喜欢兴奋?
发布于 2014-01-14 04:10:29
这并不是说“兴奋”这个标签是首选的,而是信息实际上应该被归类为“兴奋”而不是“烦恼”的可能性。
假设我对情绪有两个分类:“看涨”和“看跌”。然后,我用“看涨”和“看跌”训练数据,在预测API中训练一个模型。当我向预测API提交消息以获得情绪时,它会读取文本,并根据消息中的单词指定一个“看涨”和“看跌”的概率。概率之和将达到1。
因此,这并不是说一个标签比另一个标签更受欢迎,而是信息“兴奋”的概率是“恼怒”的3倍。
发布于 2016-02-18 15:41:10
如果你用这两个例子来训练模型,“兴奋”和“烦人”标签上的句子“天哪!真是精彩的一天!”,当你查询这条推文的分类时,唯一合理的结果就是“天哪!真是精彩的一天!”应该是“兴奋”:0.5,“烦人”:0.5。
因此,这种情况可能在Google文档中没有得到很好的解释。我想他们会更加专注于解释,把两个不同的标签和相同的句子联系起来是可能的。
https://stackoverflow.com/questions/21091587
复制相似问题