问从文本数据和非文本数据预测得分
EN

Stack Overflow用户

提问于 2022-02-16 17:49:50

回答 1查看 107关注 0票数 0

这是一项任务。我在一个虚拟的网站上有100种出版物。每一份出版物都被人为地给出了一个分数，表明它有多成功。我需要预测是什么影响了这个价值。

到目前为止，我已经抓取了可能影响分数的信息，并将它们保存到单独的列表中。我循环的相关部分如下：

供宣传之用：

预测器1= 3.025

预测器2=日刊A

预测器3=0

响应变量= 42.5

标题=判刑

摘要=段落

我可以通过将预测器1-3和响应放到一个dataframe中，然后进行回归来解决其中的大部分问题。让我感到震惊的是标题和摘要文本。我可以去掉他们的标点符号，移除断句，但在那之后，我不知道如何和其他预测器一起分析它们。我正在做一些文本相似性的比较，高分和高分之间的比较，以及标题和抽象是否影响分数的依据，但我希望有一种更清晰的方法，让我也能把文本放到一个预测模型中。

目前，除了文本之外，我还有5个预测器，所有标题和摘要中总共有40,000字，如果其中任何一个影响哪种方法最有效的话。理想情况下，我希望最终能够把所有的东西都放到一个预测模型中，但是任何方法都能引导我找到一个可行的解决方案。

python

回答 1

Stack Overflow用户

发布于 2022-02-16 18:21:24

这将是使用多项式朴素贝叶斯的理想情况。这是一种相对简单但相当强大的分类文本类的方法。如果这是一个介绍性的练习，我99%肯定你是教授，希望能用NB来解决这个问题。

我推荐一个像雪橇这样的库，它应该使任务变得非常简单。如果你对NB背后的直觉感兴趣，这 YouTube视频应该是一个很好的介绍。从浏览一些例子/博客文章开始，google应该为你提供无数的例子。然后修改代码以适应您的用例。您可以将文章分组到两个类中，例如score <=5 = bad、score > 5 = good。下一步将是预测两个以上的类，如解释的这里。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/71146840

复制

相似问题

问从文本数据和非文本数据预测得分
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从文本数据和非文本数据预测得分EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问从文本数据和非文本数据预测得分
EN