我想用发行前的数据来预测电影的总集,比如片名、演员、导演、演播室、影评人、流派等等。我找到了一种方法来量化其中的大部分,但无法量化片名。标题传达了许多有用的信息,如电影是否是续集、标题的长度、相关的情感等等。如何从标题中定量地提取这些信息?
发布于 2017-03-31 13:56:41
蝴蝶结是创建基于文本的功能的标准方法,但我不推荐它,因为电影标题很短,而且其中许多包含断章取义的单词,命名为实体。这将使你的特征向量更加稀疏。
您可以为标题的每个单词创建一个word2vec编码,然后将标题的平均向量作为您的功能。我最喜欢的工具:gensim或Facebook快速文本
https://stackoverflow.com/questions/43138853
复制相似问题