Python 爬取社交网络评论数据并完成情感分析

原创

小白学大数据

发布于 2026-02-27 16:40:26

8170

在社交媒体成为舆论主阵地的当下，爬取并分析社交网络评论数据已成为企业舆情监控、用户需求挖掘、品牌口碑分析的核心手段。本文将以实战视角，完整讲解如何使用 Python 爬取社交网络评论数据，并基于自然语言处理技术完成情感分析，从数据采集到结果可视化形成全流程闭环，帮助你快速掌握这一核心技能。

一、技术选型与前置准备

1.1 核心技术栈说明

本次实战围绕 “数据爬取 - 数据清洗 - 情感分析 - 结果可视化” 四大环节展开，核心依赖的 Python 库及作用如下：

requests + BeautifulSoup4：轻量级爬虫组合，负责模拟请求、解析网页结构，获取评论原始数据；
pandas：数据清洗与结构化处理，将爬取的非结构化文本转为可分析的表格数据；
snownlp：轻量级中文自然语言处理库，专门适配中文语境的情感分析，无需复杂的模型训练；
matplotlib：数据可视化，将情感分析结果以图表形式呈现，直观展示评论情感倾向。

1.2 环境搭建

首先通过 pip 安装所需依赖库，

二、实战：爬取社交网络评论数据

以某社交平台商品评论区为例（本文以公开测试页面为例，避免爬取受限数据），演示评论数据的爬取过程。

2.1 核心爬取逻辑

爬取的核心步骤为：模拟浏览器请求 → 解析 HTML 提取评论内容 → 处理分页 → 数据存储。以下是完整爬取代码：

python

运行

import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# 配置请求头，模拟浏览器访问（避免被反爬识别）
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Accept-Language": "zh-CN,zh;q=0.9",
    "Referer": "https://www.example.com/"  # 替换为目标网站
}

# 定义爬取函数
def crawl_comments(base_url, page_num):
    """
    爬取指定页数的评论数据
    :param base_url: 评论页面基础URL
    :param page_num: 要爬取的页数
    :return: 评论列表
    """
    comments_list = []
    for page in range(1, page_num + 1):
        try:
            # 构造分页URL（不同网站分页参数不同，需根据实际调整）
            url = f"{base_url}?page={page}"
            response = requests.get(url, headers=headers, timeout=10)
            response.encoding = "utf-8"  # 统一编码，避免乱码
            
            # 解析页面
            soup = BeautifulSoup(response.text, "html.parser")
            # 定位评论节点（需根据目标网站HTML结构调整class/id）
            comment_nodes = soup.find_all("div", class_="comment-content")
            
            # 提取评论内容
            for node in comment_nodes:
                comment = node.get_text(strip=True)
                if comment:  # 过滤空评论
                    comments_list.append({"page": page, "comment": comment})
            
            print(f"第{page}页爬取完成，共获取{len(comment_nodes)}条评论")
            time.sleep(1)  # 加延迟，避免请求过快被封IP
            
        except Exception as e:
            print(f"第{page}页爬取失败：{str(e)}")
            continue
    
    return comments_list

# 执行爬取（替换为实际目标URL，此处为示例）
if __name__ == "__main__":
    target_url = "https://www.example.com/product/comments"  # 替换为真实评论页URL
    total_pages = 5  # 爬取5页评论
    comments_data = crawl_comments(target_url, total_pages)
    
    # 转为DataFrame，便于后续处理
    df = pd.DataFrame(comments_data)
    # 保存为CSV文件，避免重复爬取
    df.to_csv("social_comments.csv", index=False, encoding="utf-8-sig")
    print(f"爬取完成！共获取{len(df)}条评论，已保存至social_comments.csv")

2.2 关键注意事项

反爬应对：设置请求头、添加访问延迟、控制请求频率是基础反反爬手段；若目标网站有严格反爬，可搭配代理 IP 池（如亿牛云爬虫代理IP）使用；
节点定位：find_all 的参数（class_/id）需通过浏览器 F12 分析目标网站 HTML 结构调整，这是爬虫开发的核心；
编码处理：统一设置 utf-8 编码，避免中文评论乱码；
异常处理：增加 try-except 捕获请求超时、页面解析失败等异常，保证爬虫稳定性。

三、情感分析：解析评论的情感倾向

爬取数据后，使用 snownlp 完成情感分析，该库专为中文优化，无需额外训练即可输出情感得分（0-1，越接近 1 越正面，越接近 0 越负面）。

3.1 情感分析实现代码

python

运行

import pandas as pd
from snownlp import SnowNLP
import matplotlib.pyplot as plt

# 设置中文字体，避免图表乱码
plt.rcParams["font.sans-serif"] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False

# 读取爬取的评论数据
df = pd.read_csv("social_comments.csv", encoding="utf-8-sig")

# 定义情感分析函数
def analyze_sentiment(comment):
    """
    计算单条评论的情感得分
    :param comment: 评论文本
    :return: 情感得分、情感标签
    """
    try:
        s = SnowNLP(comment)
        score = s.sentiments  # 情感得分（0-1）
        # 根据得分划分标签
        if score >= 0.7:
            label = "正面"
        elif score <= 0.3:
            label = "负面"
        else:
            label = "中性"
        return score, label
    except Exception as e:
        print(f"情感分析失败：{comment} | 错误：{str(e)}")
        return 0.5, "中性"  # 异常评论标记为中性

# 批量处理评论
df["sentiment_score"] = df["comment"].apply(lambda x: analyze_sentiment(x)[0])
df["sentiment_label"] = df["comment"].apply(lambda x: analyze_sentiment(x)[1])

# 保存分析结果
df.to_csv("comments_sentiment.csv", index=False, encoding="utf-8-sig")
print("情感分析完成！结果已保存至comments_sentiment.csv")

# 统计情感分布
sentiment_count = df["sentiment_label"].value_counts()
print("\n情感分布统计：")
print(sentiment_count)

# 可视化情感分布
plt.figure(figsize=(8, 6))
sentiment_count.plot(kind="pie", autopct="%1.1f%%", colors=["#66b3ff", "#ff9999", "#99ff99"])
plt.title("社交网络评论情感分布")
plt.ylabel("")  # 隐藏y轴标签
plt.savefig("sentiment_distribution.png", dpi=300, bbox_inches="tight")
plt.show()

3.2 代码解析

字体设置：plt.rcParams 配置中文字体，解决 matplotlib 中文显示方块的问题；
情感得分计算：SnowNLP(comment).sentiments 输出 0-1 的情感得分，得分越高代表情感越正面；
标签划分：将得分≥0.7 定义为正面，≤0.3 定义为负面，中间为中性（可根据业务需求调整阈值）；
可视化：通过饼图直观展示正面、负面、中性评论的占比，便于快速洞察整体情感倾向。

四、进阶优化与实战拓展

4.1 提升分析准确性

snownlp 是通用型情感分析库，若需适配特定行业（如电商、美妆），可通过以下方式优化：

自定义情感词典：修改 snownlp 的内置词典，添加行业专属词汇（如 “性价比高”“物流慢”）；
模型微调：使用标注好的行业评论数据，基于 jieba + 朴素贝叶斯训练专属情感分析模型。

4.2 应对复杂爬取场景

若目标社交平台为动态渲染页面（如基于 Vue/React 的评论区），需替换爬虫方案：

使用 Selenium/Playwright 模拟浏览器渲染，获取动态加载的评论；
分析接口：通过浏览器 Network 面板抓包，直接调用评论接口获取 JSON 格式数据，效率更高。

4.3 合规性提醒

爬取社交网络数据时需遵守《网络安全法》《个人信息保护法》：

仅爬取公开可访问的评论数据，不得获取用户隐私信息（如手机号、身份证）；
爬取频率需合理，不得干扰目标网站正常运营；
数据仅用于合法合规的分析场景，禁止商用或恶意传播。

五、总结

本文完整实现了 “Python 爬取社交网络评论 + 情感分析” 的全流程，从环境搭建、数据爬取，到情感计算、结果可视化，覆盖了核心代码与关键技巧。通过这套方案，你可以快速落地社交网络评论分析场景：

企业可用于品牌舆情监控，及时发现负面评论并响应；
运营人员可挖掘用户核心需求，优化产品或服务；
数据分析人员可基于情感倾向，输出有价值的行业洞察。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

python

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

python

登录后参与评论

0 条评论

热度