在社交媒体蓬勃发展的今天,推特X(原Twitter)作为全球最大的社交平台之一,每天都在产生海量的用户数据。
这些数据不仅包含用户的文字表达,还涵盖了丰富的地理信息。
文本数据不只是冰冷的语言,它也反映了平台用户的情感和偏好,
而文本附带的签到数据也绝不仅仅只是数字,它还代表着人类行为、迁徙轨迹等的定量表达。
曾经我想采集所有的美国大选推文,来分析推特上的美国民调倾向,
但是后面测试采集发现数据量过于庞大,就算是政治寻常日子,单天带 #DonaldTrump 相关 hashtag 的原创推文的数据条目就超过 50,000 了,
后面不得不转向只采集 #america presidential election 的 hashtag 推文,详情可见以下这篇历史推文。
构建 2024 美国总统大选推特 X 文本数据集,生成复杂网络和动态主题建模
但是当时就有个问题,在对热门的推文进行 hashtag 关系矩阵进行可视化时,我发现 #DonaldTrump 相关的推文同时大量出现(共现)南美洲一些国家的 hashtag,例如Salvador(萨尔瓦多)、Mexico(墨西哥)、Peru(秘鲁)、Bolivia(玻利维亚)、Chile(智利)、Venezuela(委内瑞拉)、Uruguay(乌拉圭)、Ecuador(厄瓜多尔)等,
记得当时在我的技术交流二群短暂讨论过相关问题,

单就文本而言,无法得出这些南美洲相关的话题推文有多少是由美国本土发出的,
换句话来说,是南美洲的推特用户贡献了这些国家话题,只不过同时带上了川普的 hashtag,也不是没可能,

而推特签到数据刚好能解决这些问题,推特用户发文时带上了地理位置信息,
于是乎,我采集了2024美国大选期间签到位于美国加利福利亚州的推特推文签到数据,
并筛选出其中和美国大选相关的推文,这样采集处理的数据地区相对精准,
经过一些基本的数据处理,然后双实体局部情感分析,计算两党的每日平均情感得分,
情感分位于 0-1 之间,值越大表示支持倾向越大
进而可以得出美国加州地区X推文中对 Trump(democrat) / Biden or Harris(republic) 的倾向随时间变化曲线

图中的波峰可以联系起一些竞选期间的事件
整体来看,来看民主党 democrats 似有领先之势,我用计算打印出来确实如此,而且更加明显:
republic_score win 137 days
democrat_score win 225 days
republic_score win overwhelmingly 24 days
democrat_score win overwhelmingly 55 days
民主党得分有 225 天超过了共和党,而共和党只有 137 天 win。
定义得分超过 0.15 分为大胜,民主党领先共和党两倍多(55:24)。
加州不愧是经典蓝(民主党)州,在其他州兵败如山倒之际,加州的天空还是一如既往地蓝。
下一期,我将分享经典红州比如德克萨斯州的情况,
这个系列打算长期更下去,说不定等到下次美国总统大选,这个系统已经能够根据社交媒体数据预测出美国大选结果了