我最近完成了一个机器学习课程,并想制作一个论坛情绪分析工具,将其应用于股票相关论坛。
其想法是:
事实上,我自己做这个(注意论坛),加上我自己的技术分析和强制性的尽职调查,它一直对我很好。我只是想让它自动化一点,甚至允许一个程序使用我的一些帐户(先进行纸面交易,如果它能在一个真实的帐户中分配一些钱)。
这将是我的第一个机器学习项目(作为一个概念的证明),因此,任何意见将非常感谢。
我发现的最大问题是,我想要制作一个无监督培训,并且我需要一个样本数据集来进行培训。
问题:是否有任何已知的论坛情绪数据可用于无监督的培训?
我发现了一些情绪数据集(twitter、imbd、amazon评论),但它们非常特定于它们的利基(短消息、电影、产品.)但我在找更一般的东西。
发布于 2018-10-18 11:15:03
因为您正在寻找一种无监督的方法,所以您可以使用与“真实情况”相匹配的任何数据集。文本挖掘和情感分析通常是针对手头的问题而量身定做的,因此很容易直接从实际数据开始。最好的方法是建立一个刮板,直接抓取你想要分析的论坛帖子。您可以使用Python (漂亮的汤/selenium)轻松地构建刮板。网上有很多很好的教程,例如:https://www.dataquest.io/blog/web-scraping-tutorial-python/
https://stackoverflow.com/questions/52849649
复制相似问题