搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏杨熹的专栏
Kaggle: Detect toxicity - Basic EDA -1
== 0, other = 1).sum() non_toxic_count = non_toxic_df.where(train_labeled_df == 0, other = 1).sum() toxic_vs_non_toxic = pd.concat([toxic_count, non_toxic_count], axis=1) toxic_vs_non_toxic = toxic_vs_non_toxic.rename (index=str, columns={1: "non-toxic", 0: "toxic"}) # here we plot the stacked graph but we sort it by toxic comments to (perhaps) see something interesting toxic_vs_non_toxic.sort_values(by='toxic').plot = weighted_toxic / identity_label_count weighted_toxic = weighted_toxic.sort_values(ascending=False)
99640发布于 2019-06-04
来自专栏拓端tecdat
用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类
= ""toxic_comments = toxic_comments[filter]toxic_comments = toxic_comments.dropna() 该comment_text列包含文本注释让我们看一下与此注释相关的标签： print("Toxic:" + str(toxic_comments["toxic"][168]))print("Severe_toxic:" + str(toxic_comments ["severe_toxic"][168]))print("Obscene:" + str(toxic_comments["obscene"][168]))print("Threat:" + str(toxic_comments toxic_comments_labels = toxic_comments[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate 以下脚本创建输入层和组合的输出层： y = toxic_comments[["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate
4K11发布于 2020-09-25
来自专栏数据库相关
【混沌工程】使用toxiproxy模拟网络延迟
另开一个窗口： toxiproxy-cli create mysql -l 0.0.0.0:23306 -u 192.168.2.161:3306 toxiproxy-cli toxic add 192.168.2.161 --port 23306 # 在其它主机通过toxiproxy的端口去远程连接mysql 如果要修改延迟的时长，需要先删掉，然后重新创建： toxiproxy-cli toxic remove mysql -n latency_downstream # 删除 toxiproxy-cli toxic add mysql -t latency -a latency=100 #
1.4K11发布于 2020-04-17
遥感图像非法采矿矿区识别分割数据集labelme格式1818张3类别
仅仅包含jpg图片和对应的json文件) 图片数量(jpg文件个数)：1818 标注数量(json文件个数)：1818 标注类别数：3 标注类别名称:["river","illegal-mining","toxic-pool "] 每个类别标注的框数： river count = 806 illegal-mining count = 4307 toxic-pool count = 4760 使用标注工具：labelme=5.5.0
20600编辑于 2025-07-17
来自专栏算法channel
Kaggle最受欢迎的10个竞赛数据集
5 Toxic Comment Classification Challenge NLP starts here! Identify and classify toxic online comments 6 Santander Customer Satisfaction HOT Which customers are
22.7K152发布于 2018-09-30
来自专栏相约机器人
使用BERT和TensorFlow构建多标签文本分类器
数据集将使用Kaggle的Toxic Comment Classification Challenge数据集，该数据集由大量维基百科评论组成，这些评论已被人类评估者标记为有毒行为。毒性的类型是： https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge toxic, severe_toxic, obscene 意思是它是toxic 和threat。简要讨论一下BERT 在2018年10月，谷歌发布了一种名为BERT的新语言表示模型，它代表变形金刚的双向编码器表示。 https://www.kaggle.com/javaidnabi/toxic-comment-classification-using-bert/ 所以在其他一些数据集上尝试一下并运行几个时期[3-4
11.1K41发布于 2019-06-21
来自专栏AI小白入门
【NLP】文本分类任务之逻辑回归
数据描述数据分为训练集和测试集，训练集包含153165条样本，测试集包含153164条样本，标签分为6类，分别是toxic，severe_toxic，obscene，threat，insult，identity_hate from sklearn.model_selection import cross_val_score from scipy.sparse import hstack class_names = [toxic , severe_toxic, obscene, threat, insult, identity_hate] train = pd.read_csv(..
1.3K10发布于 2020-02-14
来自专栏新智元
GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7
very simple instructions for the LLM "task_guidelines": "Does the provided comment contain 'toxic Say toxic or not toxic. ", "labels": [ # list of labels to choose from "toxic", "not toxic" Prompt Example ────────────────────────────────────────────────── Does the provided comment contain 'toxic Say toxic or not toxic.
1.6K41编辑于 2023-09-19
来自专栏深度学习自然语言处理
大模型会输出隐式有害内容？听听清华大学研究人员怎么说！
为了进一步提高被奖励模型 \phi 攻击检测模型的攻击成功率，作者使用了有害内容检测模型针对回答x输出的检测可能性 P(toxic|x,y) 来构建新奖励 R_{\theta}^{new}=R_{\theta } - \alpha(P(toxic|x,y)) ，其中 \alpha 是一个超参数。图3：实验主要结果直接分析实验结果，我们可以发现以下信息：经过监督微调和人类反馈强化学习的RL LLaMA-13B输出的回答得到的奖励是最高的，人类标注员标注的Annotated Toxic Prob 这说明了两点：经过监督微调或提示词工程的大模型有强大的突破有害内容检测模型的能力人类反馈强化学习能够进一步提高大模型的上述能力使用一个检测模型输出的 P(toxic|x,y) 作为奖励的一部分能够极大提高大模型攻击任意一个检测模型的能力图4：原奖励 R_{\theta} 与 P(toxic|x,y) 均能提高强化学习的效果图5：越大的模型有越高的输出隐式有害内容的潜力图6：超参数 \alpha 和超参数 \beta 的恰当选择对训练效果至关重要
72810编辑于 2023-12-05
来自专栏AIRX三次方
Kaggle竞赛开源项目汇总
Kaggle_dstl_submission 在Dstl卫星图像特征检测挑战赛中获胜的模型代码 https://github.com/ternaus/kaggle_dstl_submission 10、Open Solution Toxic Comments https://github.com/minerva-ml/open-solution-toxic-comments 11、Kaggle Airbnb Recruiting New
1.5K00发布于 2020-12-03
来自专栏膨胀的面包
PHP 自动爬毒汤日历搭建毒鸡汤一言 API 接口
准备工作通过抓包得到了毒汤日历的 API http://www.dutangapp.cn/u/toxic? 2018-3-21 至现在日期相差的天数 for ($i=1; $i<83; $i++) { $json_string =httpGet('http://www.dutangapp.cn/u/toxic fwrite($myfile,$txt); fclose($myfile); } $json_string =httpGet('http://www.dutangapp.cn/u/toxic
1.7K40发布于 2021-06-15
来自专栏大数据文摘
搞定NLP领域的“变形金刚”！手把手教你用BERT进行多标签文本分类
比赛链接： https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge 从哪开始？资料链接: https://nbviewer.jupyter.org/github/kaushaltrivedi/bert-toxic-comments-multilabel/blob/master/ toxic-bert-multilabel-classification.ipynb https://github.com/kaushaltrivedi/bert-toxic-comments-multilabel /blob/master/toxic-bert-multilabel-classification.ipynb 原始BERT论文: https://arxiv.org/pdf/1810.04805 相关报道
2.3K30发布于 2019-03-06
显微镜下浮游藻类生物检测数据集VOC+YOLO格式16239张80类别
Meridion","Microcystis","Mycrocystis","Navicula","Neidiopsis","Neidium","Nitzschia","Noduloria","Non Toxic = 8 Navicula 框数 = 113 Neidiopsis 框数 = 63 Neidium 框数 = 158 Nitzschia 框数 = 772 Noduloria 框数 = 703 Non Toxic
18900编辑于 2025-07-16
来自专栏AI小白入门
【NLP实战】文本分类之NBSVM算法
lens.max()) 句子长度的平均值: 67.86696204197504 句子长度的方差: 100.52020389688838 句子长度的最大值: 2273 label_cols = [toxic , severe_toxic, obscene, threat, insult, identity_hate] train[none] = 1-train[label_cols].max(axis=1)
1.6K40发布于 2020-02-14
来自专栏玉树芝兰
如何用 Python 和 BERT 做多标签（multi-label）文本分类？
竞赛的名字叫做：恶毒评论分类挑战（Toxic Comment Classification Challenge），链接在这里。这个竞赛的数据，取自真实的网络评论。除了序号和原始文本以外，每行数据都包含了6个维度的标注，分别是： toxic（恶毒） severe_toxic（非常恶毒） obscene（污言秽语） threat（威胁） insult（侮辱） identity_hate label_cols = ["toxic", "severe_toxic", "obscene", "threat", "insult", "identity_hate"] 终于可以正式读取数据了。
5.5K40发布于 2019-05-28
来自专栏我爱计算机视觉
青出于蓝而胜于蓝，超越MixUp、CutMix的样本混合数据增广新算法FMix
论文的实验在图像分类（CIFAR-10、CIFAR-100、Fashion、ImageNet）、文本分类（Toxic）等任务中显示，FMix取得了一致的性能提升，是目前最先进的样本混合数据增广方法。
3.7K30发布于 2020-03-04
来自专栏速入大数据
大模型不是你家熊孩子：聊聊生成式模型“去偏 / 去毒”流水线怎么落地
生成完成后，我们必须：检测是否包含辱骂是否包含仇恨言论是否存在偏见表达是否涉及违法内容简单规则版：展开代码语言：PythonAI代码解释TOXIC_WORDS=["stupid","kill","hate ：PythonAI代码解释fromtransformersimportpipelineclassifier=pipeline("text-classification",model="unitary/toxic-bert
15210编辑于 2026-02-28
来自专栏时空探索之旅
WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM】
Towards Robust Detection of Chinese Toxic Variants via Dynamic Knowledge Graph–LLM Reasoning16. Zhang, Hongyuan Liu, Junming Shao and Carl Yang 关键词：知识图谱，LLM 15 Towards Robust Detection of Chinese Toxic
32110编辑于 2026-03-10
来自专栏芯片工艺技术
IPA的半导体车间的应用
also evaporates quickly, leaves nearly zero oil traces, compared to ethanol, and is relatively non-toxic
1.3K20编辑于 2022-11-16
来自专栏自然语言处理
【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”
Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal Your answers should not include any harmful, unethical, racist, sexist, toxic, dangerous, or illegal
2.3K20编辑于 2023-08-26

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页

点击加载更多

Kaggle: Detect toxicity - Basic EDA -1

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

【混沌工程】使用toxiproxy模拟网络延迟

遥感图像非法采矿矿区识别分割数据集labelme格式1818张3类别

Kaggle最受欢迎的10个竞赛数据集

使用BERT和TensorFlow构建多标签文本分类器

【NLP】文本分类任务之逻辑回归

GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7

大模型会输出隐式有害内容？听听清华大学研究人员怎么说！

Kaggle竞赛开源项目汇总

PHP 自动爬毒汤日历搭建毒鸡汤一言 API 接口

搞定NLP领域的“变形金刚”！手把手教你用BERT进行多标签文本分类

显微镜下浮游藻类生物检测数据集VOC+YOLO格式16239张80类别

【NLP实战】文本分类之NBSVM算法

如何用 Python 和 BERT 做多标签（multi-label）文本分类？

青出于蓝而胜于蓝，超越MixUp、CutMix的样本混合数据增广新算法FMix

大模型不是你家熊孩子：聊聊生成式模型“去偏 / 去毒”流水线怎么落地

WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM】

IPA的半导体车间的应用

【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Kaggle: Detect toxicity - Basic EDA -1

用于NLP的Python：使用Keras的多标签文本LSTM神经网络分类

【混沌工程】 使用toxiproxy模拟网络延迟

遥感图像非法采矿矿区识别分割数据集labelme格式1818张3类别

Kaggle最受欢迎的10个竞赛数据集

使用BERT和TensorFlow构建多标签文本分类器

【NLP】文本分类任务之逻辑回归

GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7

大模型会输出隐式有害内容？听听清华大学研究人员怎么说！

Kaggle竞赛开源项目汇总

PHP 自动爬毒汤日历搭建毒鸡汤一言 API 接口

搞定NLP领域的“变形金刚”！手把手教你用BERT进行多标签文本分类

显微镜下浮游藻类生物检测数据集VOC+YOLO格式16239张80类别

【NLP实战】文本分类之NBSVM算法

如何用 Python 和 BERT 做多标签（multi-label）文本分类？

青出于蓝而胜于蓝，超越MixUp、CutMix的样本混合数据增广新算法FMix

大模型不是你家熊孩子：聊聊生成式模型“去偏 / 去毒”流水线怎么落地

WWW 2026 | LLM×Graph论文总结【LLM4Graph & Graph4LLM】

IPA的半导体车间的应用

【LLM系列之指令微调】长话短说大模型指令微调的“Prompt”

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

【混沌工程】使用toxiproxy模拟网络延迟