这是一项任务。我在一个虚拟的网站上有100种出版物。每一份出版物都被人为地给出了一个分数,表明它有多成功。我需要预测是什么影响了这个价值。
到目前为止,我已经抓取了可能影响分数的信息,并将它们保存到单独的列表中。我循环的相关部分如下:
供宣传之用:
预测器1= 3.025
预测器2=日刊A
预测器3=0
响应变量= 42.5
标题=判刑
摘要=段落
我可以通过将预测器1-3和响应放到一个dataframe中,然后进行回归来解决其中的大部分问题。让我感到震惊的是标题和摘要文本。我可以去掉他们的标点符号,移除断句,但在那之后,我不知道如何和其他预测器一起分析它们。我正在做一些文本相似性的比较,高分和高分之间的比较,以及标题和抽象是否影响分数的依据,但我希望有一种更清晰的方法,让我也能把文本放到一个预测模型中。
目前,除了文本之外,我还有5个预测器,所有标题和摘要中总共有40,000字,如果其中任何一个影响哪种方法最有效的话。理想情况下,我希望最终能够把所有的东西都放到一个预测模型中,但是任何方法都能引导我找到一个可行的解决方案。
https://stackoverflow.com/questions/71146840
复制相似问题