如何将非结构化数据用于预测目的?(所谓非结构化,我指的是数据库意义上的非结构化)。
我有一个预测系统,它使用历史数据和一组额外的解释功能来预测需求。就数据库而言,这是数据所能得到的结构。
我在几个地方听说过,大数据和非结构化数据可以用来改善需求预测。
但是当我深入研究细节时,它们似乎总是首先将非结构化数据减少为某种结构化格式,然后将其提供给他们所使用的任何预测方法。他们没有使用“真正的非结构化数据”。
如何在预测算法中使用真正的非结构化数据?有什么出版物和参考资料吗?
发布于 2017-12-28 16:01:51
如何使用数据主要取决于您试图解决的域问题。
在你提到的情况下,这将取决于你到底想要预测什么。例如,如果您试图预测销售或续订,有一些即时用例,您可以利用“非结构化”数据来增加输入到模型中的信号(功能)的数量和/或质量: 1)处理来自联络中心交互的音频数据,以确定客户的总体情绪(即“他在等待销售电话吗?”);2)处理来自客户评论的文本,并使用情感/关键字作为客户模型的前置者;等等!
看起来,它们最终总是先将非结构化数据减少为某种结构化格式,然后将其提供给他们所使用的任何预测方法。
可能是因为它们的预测算法或方法要求以特定格式输入数据,就像大多数预测或分类算法所做的那样;不同的算法对数据问题有不同的公差,例如缺失值或异常值。因此,您处理一段非结构化的数据,目的是使用它,通常是将其添加到数据模型中,或者将其作为报表的数据或作为预测模型的特性输入。
PS:我很好奇,是否有人知道这样的情况:你只会把非结构化数据扔到预测算法(例如神经网络)上,从中得到一些有意义或有用的东西。
发布于 2017-12-28 14:18:24
递归神经网络可以利用非结构化数据(如视频或原始文本)来进行预测。
例如,模型可以使用大量电子邮件中的文本作为输入,然后尝试预测一些内容。
https://datascience.stackexchange.com/questions/12055
复制相似问题