我有一个恐怖袭击(表格)数据集。每一行都是一次攻击,列如下:
此外,我有一个文本列,其中包含了对攻击的2-3句描述。这是我想用来训练/预测的主要专栏。
表单"is_left_wing“、"is_right_wing”等有几个目标列,其值为0、1和-1。这里0表示攻击没有各自的动机,1表示它有动机,-1表示它未知。
简而言之,我的目标是构建一个模型,该模型针对目标列中的0和1值进行训练,并对-1进行预测。
我最关心的是如何使用攻击描述从文本列中提取特性。我有有限的NLP经验,我想使用比简单的包字模型更复杂的东西。
我希望就解决这个问题的一般方法提出建议(也可以阅读一些关于这个问题的好资料)。
发布于 2018-05-11 14:01:43
使用词嵌入,并将整个句子编码成一个固定的特征向量,使用香草RNN或更复杂的模型,如注意LSTM。
将其他特征与句子的固定长度表示结合起来,并附加在它们的上面,或者是密集的层。
体系结构前馈(concat(other_features,RNN(句子)
https://datascience.stackexchange.com/questions/31524
复制相似问题