首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏杨熹的专栏

    Kaggle: Detect toxicity - Basic EDA -1

    == 0, other = 1).sum() non_toxic_count = non_toxic_df.where(train_labeled_df == 0, other = 1).sum() toxic_vs_non_toxic = pd.concat([toxic_count, non_toxic_count], axis=1) toxic_vs_non_toxic = toxic_vs_non_toxic.rename (index=str, columns={1: "non-toxic", 0: "toxic"}) # here we plot the stacked graph but we sort it by toxic comments to (perhaps) see something interesting toxic_vs_non_toxic.sort_values(by='toxic').plot = weighted_toxic / identity_label_count weighted_toxic = weighted_toxic.sort_values(ascending=False)

    99640发布于 2019-06-04
  • 来自专栏拓端tecdat

    用于NLP的Python:使用Keras的多标签文本LSTM神经网络分类

    = ""toxic_comments = toxic_comments[filter]toxic_comments = toxic_comments.dropna() 该comment_text列包含文本注释 让我们看一下与此注释相关的标签: print("Toxic:" + str(toxic_comments["toxic"][168]))print("Severe_toxic:" + str(toxic_comments ["severe_toxic"][168]))print("Obscene:" + str(toxic_comments["obscene"][168]))print("Threat:" + str(toxic_comments toxic_comments_labels = toxic_comments[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate 以下脚本创建输入层和组合的输出层: y = toxic_comments[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate

    4K11发布于 2020-09-25
  • 来自专栏数据库相关

    【混沌工程】 使用toxiproxy模拟网络延迟

    另开一个窗口: toxiproxy-cli   create   mysql  -l 0.0.0.0:23306  -u 192.168.2.161:3306 toxiproxy-cli toxic add 192.168.2.161  --port 23306   # 在其它主机通过toxiproxy的端口去远程连接mysql 如果要修改延迟的时长,需要先删掉,然后重新创建: toxiproxy-cli toxic remove mysql -n latency_downstream  # 删除 toxiproxy-cli toxic add mysql -t latency -a latency=100  #

    1.4K11发布于 2020-04-17
  • 遥感图像非法采矿矿区识别分割数据集labelme格式1818张3类别

    仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数):1818 标注数量(json文件个数):1818 标注类别数:3 标注类别名称:["river","illegal-mining","toxic-pool "] 每个类别标注的框数: river count = 806 illegal-mining count = 4307 toxic-pool count = 4760 使用标注工具:labelme=5.5.0

    20600编辑于 2025-07-17
  • 来自专栏算法channel

    Kaggle最受欢迎的10个竞赛数据集

    5 Toxic Comment Classification Challenge NLP starts here! Identify and classify toxic online comments 6 Santander Customer Satisfaction HOT Which customers are

    22.7K152发布于 2018-09-30
  • 来自专栏相约机器人

    使用BERT和TensorFlow构建多标签文本分类器

    数据集 将使用Kaggle的Toxic Comment Classification Challenge数据集,该数据集由大量维基百科评论组成,这些评论已被人类评估者标记为有毒行为。 毒性的类型是: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge toxic, severe_toxic, obscene 意思是它是toxic 和threat。 简要讨论一下BERT 在2018年10月,谷歌发布了一种名为BERT的新语言表示模型,它代表变形金刚的双向编码器表示。 https://www.kaggle.com/javaidnabi/toxic-comment-classification-using-bert/ 所以在其他一些数据集上尝试一下并运行几个时期[3-4

    11.1K41发布于 2019-06-21
  • 来自专栏AI小白入门

    【NLP】文本分类任务之逻辑回归

    数据描述 数据分为训练集和测试集,训练集包含153165条样本,测试集包含153164条样本,标签分为6类,分别是toxic,severe_toxic,obscene,threat,insult,identity_hate from sklearn.model_selection import cross_val_score from scipy.sparse import hstack class_names = [toxic , severe_toxic, obscene, threat, insult, identity_hate] train = pd.read_csv(..

    1.3K10发布于 2020-02-14
  • 来自专栏新智元

    GPT-4终结人工标注!AI标注比人类标注效率高100倍,成本仅1/7

    very simple instructions for the LLM "task_guidelines": "Does the provided comment contain 'toxic Say toxic or not toxic. ", "labels": [ # list of labels to choose from "toxic", "not toxic" Prompt Example ────────────────────────────────────────────────── Does the provided comment contain 'toxic Say toxic or not toxic.

    1.6K41编辑于 2023-09-19
  • 来自专栏深度学习自然语言处理

    大模型会输出隐式有害内容?听听清华大学研究人员怎么说!

    为了进一步提高被奖励模型 \phi 攻击检测模型的攻击成功率,作者使用了有害内容检测模型针对回答x输出的检测可能性 P(toxic|x,y) 来构建新奖励 R_{\theta}^{new}=R_{\theta } - \alpha(P(toxic|x,y)) ,其中 \alpha 是一个超参数。 图3:实验主要结果 直接分析实验结果,我们可以发现以下信息: 经过监督微调和人类反馈强化学习的RL LLaMA-13B输出的回答得到的奖励是最高的,人类标注员标注的Annotated Toxic Prob 这说明了两点: 经过监督微调或提示词工程的大模型有强大的突破有害内容检测模型的能力 人类反馈强化学习能够进一步提高大模型的上述能力 使用一个检测模型输出的 P(toxic|x,y) 作为奖励的一部分能够极大提高大模型攻击任意一个检测模型的能力 图4:原奖励 R_{\theta} 与 P(toxic|x,y) 均能提高强化学习的效果 图5:越大的模型有越高的输出隐式有害内容的潜力 图6:超参数 \alpha 和超参数 \beta 的恰当选择对训练效果至关重要

    72810编辑于 2023-12-05
  • 来自专栏AIRX三次方

    Kaggle竞赛开源项目汇总

    Kaggle_dstl_submission 在Dstl卫星图像特征检测挑战赛中获胜的模型代码 https://github.com/ternaus/kaggle_dstl_submission 10、Open Solution Toxic Comments https://github.com/minerva-ml/open-solution-toxic-comments 11、Kaggle Airbnb Recruiting New

    1.5K00发布于 2020-12-03
  • 来自专栏膨胀的面包

    PHP 自动爬毒汤日历搭建毒鸡汤一言 API 接口

    准备工作 通过抓包得到了毒汤日历的 API http://www.dutangapp.cn/u/toxic? 2018-3-21 至现在日期相差的天数 for ($i=1; $i<83; $i++) { $json_string =httpGet('http://www.dutangapp.cn/u/toxic fwrite($myfile,$txt); fclose($myfile); } $json_string =httpGet('http://www.dutangapp.cn/u/toxic

    1.7K40发布于 2021-06-15
  • 来自专栏大数据文摘

    搞定NLP领域的“变形金刚”!手把手教你用BERT进行多标签文本分类

    比赛链接: https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge 从哪开始? 资料链接: https://nbviewer.jupyter.org/github/kaushaltrivedi/bert-toxic-comments-multilabel/blob/master/ toxic-bert-multilabel-classification.ipynb https://github.com/kaushaltrivedi/bert-toxic-comments-multilabel /blob/master/toxic-bert-multilabel-classification.ipynb 原始BERT论文: https://arxiv.org/pdf/1810.04805 相关报道

    2.3K30发布于 2019-03-06
  • 显微镜下浮游藻类生物检测数据集VOC+YOLO格式16239张80类别

    Meridion","Microcystis","Mycrocystis","Navicula","Neidiopsis","Neidium","Nitzschia","Noduloria","Non Toxic = 8 Navicula 框数 = 113 Neidiopsis 框数 = 63 Neidium 框数 = 158 Nitzschia 框数 = 772 Noduloria 框数 = 703 Non Toxic

    18900编辑于 2025-07-16
  • 来自专栏AI小白入门

    【NLP实战】文本分类之NBSVM算法

    lens.max()) 句子长度的平均值: 67.86696204197504 句子长度的方差: 100.52020389688838 句子长度的最大值: 2273 label_cols = [toxic , severe_toxic, obscene, threat, insult, identity_hate] train[none] = 1-train[label_cols].max(axis=1)

    1.6K40发布于 2020-02-14
  • 来自专栏玉树芝兰

    如何用 Python 和 BERT 做多标签(multi-label)文本分类?

    竞赛的名字叫做:恶毒评论分类挑战(Toxic Comment Classification Challenge),链接在这里。 这个竞赛的数据,取自真实的网络评论。 除了序号和原始文本以外,每行数据都包含了6个维度的标注,分别是: toxic(恶毒) severe_toxic(非常恶毒) obscene(污言秽语) threat(威胁) insult(侮辱) identity_hate label_cols = ["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"] 终于可以正式读取数据了。

    5.5K40发布于 2019-05-28
  • 来自专栏我爱计算机视觉

    青出于蓝而胜于蓝,超越MixUp、CutMix的样本混合数据增广新算法FMix

    论文的实验在图像分类(CIFAR-10、CIFAR-100、Fashion、ImageNet)、文本分类(Toxic)等任务中显示,FMix取得了一致的性能提升,是目前最先进的样本混合数据增广方法。

    3.7K30发布于 2020-03-04
  • 来自专栏速入大数据

    大模型不是你家熊孩子:聊聊生成式模型“去偏 / 去毒”流水线怎么落地

    生成完成后,我们必须:检测是否包含辱骂是否包含仇恨言论是否存在偏见表达是否涉及违法内容简单规则版:展开代码语言:PythonAI代码解释TOXIC_WORDS=["stupid","kill","hate :PythonAI代码解释fromtransformersimportpipelineclassifier=pipeline("text-classification",model="unitary/toxic-bert

    15210编辑于 2026-02-28
  • 来自专栏时空探索之旅

    WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM】

    Towards Robust Detection of Chinese Toxic Variants via Dynamic Knowledge Graph–LLM Reasoning16. Zhang, Hongyuan Liu, Junming Shao and Carl Yang 关键词:知识图谱,LLM 15 Towards Robust Detection of Chinese Toxic

    32110编辑于 2026-03-10
  • 来自专栏芯片工艺技术

    IPA的半导体车间的应用

    also evaporates quickly, leaves nearly zero oil traces, compared to ethanol, and is relatively non-toxic

    1.3K20编辑于 2022-11-16
  • 来自专栏自然语言处理

    【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

    Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal

    2.3K20编辑于 2023-08-26
领券