核心观点:三大范式的根本区别,不在于“有没有标签”,而在于系统与环境的交互协议(Interaction Contract)。
在工业实践中,我们常听到“这是个监督学习问题”或“试试无监督聚类”。但当模型上线后遭遇分布偏移、奖励稀疏或标签噪声时,许多团队才发现:他们误判了问题的本质范式。 本章将从数据流、反馈信号、目标函数与失败模式四个维度,对三大范式进行工程级重定义。
💡 关键洞察:监督学习依赖“上帝视角”的标注;强化学习只能靠“试错反馈”摸索。

Scikit-learn(监督/无监督)
model.fit(X, y) # 监督:需 y
model.fit(X) # 无监督:无需 y
y_pred = model.predict(X)→ 一次性批量训练,静态模型
Stable Baselines3 / RLlib(强化学习)
model.learn(total_timesteps=10000) # 与环境交互式训练
obs = env.reset()
while not done:
action, _ = model.predict(obs)
obs, reward, done, info = env.step(action)→ 在线/离线交互式训练,策略动态演化
⚠️ 常见误区:用监督学习框架强行拟合 RL 问题(如将 (state, action) 当作 (x, y)),会丢失时序依赖与信用分配,导致策略短视。

🔧 应对策略:
✅ 现代 AI 系统往往是多范式融合体: 例如自动驾驶系统 =
问自己三个问题:
若以上皆否,则可能属于新兴交叉范式(如因果推断、联邦学习),需另作分析。
延伸阅读