试图改进我的聊天应用程序:
使用来自我的域的以前(预处理)聊天交互,我已经构建了一个工具,它为用户提供了对给定聊天上下文的5种可能的话语,例如:
生:“嗨,约翰。”
上下文: hi [用户_名字]
话语:嗨,你好,又来了
当然,结果并不总是相关的,例如:
生:“嗨,约翰。你好吗?我很好,你在办公室吗?”
上下文:嗨[用户_名字]你好吗?我很好,你在办公室吗?
话语:是的,不,未定义的是的,我是未定义
我使用的是弹性搜索和TF/IDF相似模型,并使用了如下结构的索引:
{
"_index": "engagements",
"_type": "context",
"_id": "48",
"_score": 1,
"_source": {
"context": "hi [[USER_NAME]] how are you i am fine are you in the office",
"utterance": "Yes I am"
}
}问题:我确信,对于“嗨[用户_名字]你好吗?我在办公室还好吗?”这句话“是的我是的”是相关的,但是“是的”、“不”也是相关的,因为它们出现在类似的上下文中。
尝试使用这个优秀视频作为起点
问:如果我所知道的(从我的原始数据)只是一个真实的话语,我如何衡量精确度和回忆?
发布于 2021-07-10 17:25:44
精确性和召回率是“硬”指标。如果模型的预测与目标标签完全相同,则度量它们。
通常情况下,像您这样的系统可以使用更灵活的度量标准,如前5错误率,如果目标标签是模型的前5位预测之一,则模型被认为产生了正确的响应。
https://datascience.stackexchange.com/questions/14846
复制相似问题