首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >从文本数据和非文本数据预测得分

从文本数据和非文本数据预测得分
EN

Stack Overflow用户
提问于 2022-02-16 17:49:50
回答 1查看 107关注 0票数 0

这是一项任务。我在一个虚拟的网站上有100种出版物。每一份出版物都被人为地给出了一个分数,表明它有多成功。我需要预测是什么影响了这个价值。

到目前为止,我已经抓取了可能影响分数的信息,并将它们保存到单独的列表中。我循环的相关部分如下:

供宣传之用:

预测器1= 3.025

预测器2=日刊A

预测器3=0

响应变量= 42.5

标题=判刑

摘要=段落

我可以通过将预测器1-3和响应放到一个dataframe中,然后进行回归来解决其中的大部分问题。让我感到震惊的是标题和摘要文本。我可以去掉他们的标点符号,移除断句,但在那之后,我不知道如何和其他预测器一起分析它们。我正在做一些文本相似性的比较,高分和高分之间的比较,以及标题和抽象是否影响分数的依据,但我希望有一种更清晰的方法,让我也能把文本放到一个预测模型中。

目前,除了文本之外,我还有5个预测器,所有标题和摘要中总共有40,000字,如果其中任何一个影响哪种方法最有效的话。理想情况下,我希望最终能够把所有的东西都放到一个预测模型中,但是任何方法都能引导我找到一个可行的解决方案。

EN

回答 1

Stack Overflow用户

发布于 2022-02-16 18:21:24

这将是使用多项式朴素贝叶斯的理想情况。这是一种相对简单但相当强大的分类文本类的方法。如果这是一个介绍性的练习,我99%肯定你是教授,希望能用NB来解决这个问题。

我推荐一个像雪橇这样的库,它应该使任务变得非常简单。如果你对NB背后的直觉感兴趣, YouTube视频应该是一个很好的介绍。从浏览一些例子/博客文章开始,google应该为你提供无数的例子。然后修改代码以适应您的用例。您可以将文章分组到两个类中,例如score <=5 = badscore > 5 = good。下一步将是预测两个以上的类,如解释的这里

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/71146840

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档