首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏飞鸟的专栏

    MapReduce排序分类(二)

    MapReduce中,外部排序通常是在Reduce端进行的,即每个Reduce任务将它们处理的数据进行排序,然后将排序后的结果合并成一个有序的输出文件。 下面是一个使用归并排序进行外部排序的MapReduce程序示例:public class ExternalSort { public static class Map extends Mapper 这可以通过另一个MapReduce任务来实现,我们称之为“合并排序”任务。在这个任务中,我们只需要将所有Reduce任务的输出作为输入,再次进行排序即可。 如果我们要按照其他方式进行排序,例如按照字典序对字符串进行排序,就需要自定义一个排序器,并在MapReduce任务中指定使用该排序器。

    46730编辑于 2023-05-12
  • 来自专栏飞鸟的专栏

    MapReduce排序分类(一)

    MapReduce是一种用于大规模数据处理的编程模型,它将输入数据分割成多个小数据块,并将这些小数据块分配给多个计算节点进行处理。 在MapReduce中,排序是一种常见的操作,可以通过将键值对按照键或值进行排序来实现。MapReduce中的排序分为两种类型:内部排序和外部排序。 在MapReduce中,内部排序通常是在Map端进行的,即每个Map任务将它们处理的数据进行排序,然后将排序后的结果传递给Reduce任务进行汇总和处理。 下面是一个使用归并排序进行内部排序的MapReduce程序示例:public class InternalSort { public static class Map extends Mapper

    49420编辑于 2023-05-12
  • 来自专栏菩提树下的杨过

    langchain4j 学习系列(7)-文本分类

    继续我们的langchain4j学习之旅,很多“智能客服”之类的AI应用,“问题分类”是非常重要的功能之一。 识别出对应分类后,就可以交给相应的流程(或细分的sub agent)做进一步处理。 langchain4j 提供了2种分类方法: 一、基于LLM的语义理解 1.1 定义分类枚举 enum CustomerServiceCategory { PRODUCT("产品相关 ":\"classify error: " + e.getMessage() + "\"}"); } } 刚才的case符合预期了,但该方法有缺陷也十分明显,如果梳理的已知问题分类不够全面 或者先用方法1,先做一轮分类,将结果人工复检后,用于完善方法2中的分类列表) 文中示例代码:GitHub - yjmyzz/langchain4j-study at day07

    20410编辑于 2025-12-24
  • 来自专栏云计算与大数据技术

    MapReduce读取文本,实现降序排序

    =${hadoop.root.logger} hadoop.mapreduce.jobsummary.log.file=hadoop-mapreduce.jobsummary.log hadoop.mapreduce.jobsummary.log.maxfilesize ; import org.apache.hadoop.mapreduce.Mapper; import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat import org.apache.hadoop.util.ToolRunner; /** * TODO MapReduce读取文本,实现降序排序 * @author com * @Date .class); // 7、设置Mapper类和Reducer类 job.setMapperClass(MyMapper.class); job.setReducerClass(MyReduce.class 小蓝 8 小红 7 小黑 5 小白 4 小绿 3 小黄 2 小明 1

    1.2K20发布于 2021-04-27
  • 来自专栏数据分析与挖掘

    机器学习-文本分类(2)-新闻文本分类

    而且文本按照字符级别进行了匿名处理,处理后的数据为下: ? 这里就直接拆分训练集为训练集和测试集了。 在数据集中标签的对应的关系如下: {'科技': 0, '股票': 1, '体育': 2, '娱乐': 3, '时政': 4, '社会': 5, '教育': 6, '财经': 7, '家居': 8, '游戏 train_set.csv" train_df = pd.read_csv(train_path, sep='\t', nrows=15000) train_df['text'] train_df['label'] 4、进行文本分类 (1)n-gram+岭分类 vectorizer = CountVectorizer(max_features=3000) train_test = vectorizer.fit_transform( 预测结果中各类新闻数 0 1032 1 1029 2 782 3 588 4 375 5 316 6 224 8 166 7

    1.2K30发布于 2020-08-26
  • 来自专栏PaddlePaddle

    文本分类】基于双层序列的文本分类模型

    本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于 Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 文本分类是自然语言处理领域最基础的任务之一,深度学习方法能够免除复杂的特征工程,直接使用原始文本作为输入,数据驱动地最优化分类准确率 在文本分类任务中,我们以情感分类任务为例,提供了基于DNN的非序列文本分类模型,以及基于CNN的序列模型供大家学习和使用(基于LSTM的模型见PaddleBook中情感分类一课)。 02 基于双层序列的文本分类 本例将演示如何在 PaddlePaddle 中将长文本输入(通常能达到段落或者篇章)组织为双层序列,完成对长文本分类任务 |1.模型介绍 我们将一段文本看成句子的序列,而每个句子又是词语的序列 基于双层序列的文本分类模型 PaddlePaddle 实现该网络结构的代码见 network_conf.py。

    1.7K30发布于 2018-03-15
  • 来自专栏春天和爱情の樱花

    NLP文本分类

    基于深度学习的文本分类 文本分类领域,目前主要可分为: 情感分析 新闻分析 主题分类 问答系统 自然语言推理(NLI) 五大领域(当然也有一些其他细分领域,这里不进行讨论)。 目前,学术界针对文本分类所提出的深度学习模型大致有150多种,根据结构可分为11大类: 前馈网络:将文本视为词袋 基于RNN的模型:将文本视为一系列单词,旨在捕获文本单词依存关系和文本结构 基于CNN的模型 :经过训练,可以识别文本分类文本模式(例如关键短语)。 如果需要构建多个相似的文本分类器(例如,针对不同领域的新闻分类器),则多任务微调是利用相似领域的标记数据的好选择。 模型压缩:PLM成本很高。 在这个基础上,针对更具挑战性的文本分类任务构建新的数据集,例如具有多步推理的QA,针对多语言文档的文本分类,用于极长的文档的文本分类也将成为下一个中文文本分析领域飞速发展的突破口。

    75720编辑于 2022-09-22
  • 来自专栏全栈程序员必看

    TextCNN(文本分类)

    TextCNN网络结构如图所示: 利用TextCNN做文本分类基本流程(以句子分类为例): (1)将句子转成词,利用词建立字典 (2)词转成向量(word2vec,Glove,bert,nn.embedding

    79030编辑于 2022-09-15
  • 来自专栏某菜鸟の小屋

    新闻文本分类

    前言 一个很粗糙的新闻文本分类项目,解决中国软件杯第九届新闻文本分类算法的问题,记录了项目的思路及问题解决方法 后续会进一步改进,包括: 丰富训练集的数据,避免军事类、房产类、体育类的新闻数据过少, 影响精度 改用上限更高的Bert模型 优化exe文件的页面,使其能够分别处理识别短文本和excel文件 项目源码:https://github.com/bluehyssopu/NewSort 项目问题链接 train_df['text_len'].describe() # 统计文本长度 生成直方图 import matplotlib.pyplot as plt _ = plt.hist(train_df

    1.5K20编辑于 2022-11-01
  • 来自专栏Fdu弟中弟

    BERT文本分类

    使用Huggingface中预训练的BERT模型进行文本分类。 train.txt:https://github.com/649453932/Bert-Chinese-Text-Classification-Pytorch/tree/master/THUCNews/data,十分类问题 中华女子学院:本科层次仅1专业招男生 3 两天价网站背后重重迷雾:做个网站究竟要多少钱 4 东5环海棠公社230-290平2居准现房98折优惠 1 卡佩罗:告诉你德国脚生猛的原因 不希望英德战踢点球 7 input_masks = [] # attention mask label = [] # 标签 pad_size = 32 # 也称为 max_len (前期统计分析,文本长度最大值为 0,0] == pooled[0]) # False 注意是不一样的 pooled再加了一层dense和activation out = self.fc(pooled) # 得到10分类

    2.2K31发布于 2021-02-24
  • 来自专栏机器学习之旅

    GolVe向量化做文本分类向量化文本分类

    向量化 在之前,我对向量化的方法一直局限在两个点, 第一种是常规方法的one-hot-encoding的方法,常见的比如tf-idf生成的0-1的稀疏矩阵来代表原文本: ? 这种方法简单暴力,直接根据文本中的单词进行one-hot-encoding,但是数据量一但大了,这个单句话的one-hot-encoding结果会异常的长,而且没办法得到词与词之间的关系。 文本分类 刚才开门见山的聊了蛮久向量化,看起来和文本分类没什么关系,确实在通常意义上来讲,我们的最简单最常用的方法并不是向量化的方法,比如通过朴素贝叶斯,N-Grams这些方法来做分类识别。 u)\b\w+\b", max_df=0.5, sublinear_tf=True,ngram_range=(1, 1), max_features=100000) 3.不仅仅用bayes进行一次分类

    2K40发布于 2018-10-08
  • 来自专栏用户2442861的专栏

    文本分类(六):使用fastText对文本进行分类--小插曲

    测试facebook开源的基于深度学习的对文本分类的fastText模型  fasttext Python包的安装: pip install fasttext 1 1 第一步获取分类文本文本直接用的清华大学的新闻分本 ,可在文本系列的第三篇找到下载地址。  输出数据格式: 样本 + 样本标签  说明:这一步不是必须的,可以直接从第二步开始,第二步提供了处理好的文本格式。写这一步主要是为了记忆当时是怎么处理原始文本的。 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 第二步:利用fasttext进行分类 8 9 10 11 1 2 3 4 5 6 7 8 9 10 11 从结果上,看出fasttext的分类效果还是不错的,没有进行对fasttext的调参,结果都基本在90以上,不过在预测的时候,不知道怎么多出了一个分类

    1.8K10发布于 2018-09-19
  • 来自专栏全栈程序员必看

    文本分类算法之–贝叶斯文本分类算法

    文本分类过程 例如文档:Good good study Day day up可以用一个文本特征向量来表示,x=(Good, good, study, Day, day , up)。 在文本分类中,假设我们有一个文档d∈X,类别c又称为标签。我们把一堆打了标签的文档集合<d,c>作为训练样本,<d,c>∈X×C。 类条件概率计算如下: P(Chinese | yes)=(5+1)/(8+6)=6/14=3/7 P(Japan | yes)=P(Tokyo | yes)= (0+1)/(8+6)=1/14 P 后记:文本分类是作为离散型数据的,以前糊涂是把连续型与离散型弄混一块了,朴素贝叶斯用于很多方面,数据就会有连续和离散的,连续型时可用正态分布,还可用区间,将数据的各属性分成几个区间段进行概率计算,测试时看其属性的值在哪个区间就用哪个条件概率 再有TF、TDIDF,这些只是描述事物属性时的不同计算方法,例如文本分类时,可以用单词在本文档中出现的次数描述一个文档,可以用出现还是没出现即0和1来描述,还可以用单词在本类文档中出现的次数与这个单词在剩余类出现的次数

    89210编辑于 2022-09-05
  • 来自专栏NLP算法工程师之路

    文本分类

    在NLP领域中,文本分类舆情分析等任务相较于文本抽取,和摘要等任务更容易获得大量标注数据。因此在文本分类领域中深度学习相较于传统方法更容易获得比较好的效果。 文本分类领域比较重要的的深度学习模型主要有FastText,TextCNN,HAN,DPCNN。 FastText FastText是Facebook于2016年开源的一个词向量计算和文本分类工具,在学术上并没有太大创新。 但是它的优点也非常明显,在文本分类任务中,fastText(浅层网络)往往能取得和深度网络相媲美的精度,却在训练时间上比深度网络快许多数量级。 Reference 如何用深度学习做好长文本分类与法律文书智能化处理 Conv1D DPCNN in Keras代码

    1.7K20发布于 2019-12-18
  • 来自专栏Pytorch实践

    大话文本分类

    概述 文本分类是自然语言处理的重要应用,也可以说是最基础的应用。常见的文本分类应用有:新闻文本分类、信息检索、情感分析、意图判断等。本文主要针对文本分类的方法进行简单总结。 fastText神经网络模型 (2) DAN/ADAN文本分类 论文[4]中给出了DAN、ADAN的文本分类模型。 ADAN神经网络模型 (3) CNN文本分类 CNN文本分类模型目前在长文本分类过程中得到了广泛地使用,主要原因在于其算法的高度并行化。最早是由论文[7]给出的模型结构,具体如下图所示。 经笔者亲自验证CNN的效果要明显高于DAN的分类效果。 ? (4) HAN文本分类 HAN的分类模型[3]是一个非常有意思的长文本分类模型,通过对文本结构进行分层:词语、句子、文档三个层面。 IEEJ Transactions on Electrical and Electronic Engineering, 2016, 11(4): 488-498. [7] Kim Y.

    1.9K100发布于 2018-03-26
  • 来自专栏机器学习入门与实战

    textRNNtextCNN文本分类

    什么是textRNN textRNN指的是利用RNN循环神经网络解决文本分类问题,文本分类是自然语言处理的一个基本任务,试图推断出给定文本(句子、文档等)的标签或标签集合。 文本分类的应用非常广泛,如: 垃圾邮件分类:2分类问题,判断邮件是否为垃圾邮件 情感分析:2分类问题:判断文本情感是积极还是消极;多分类问题:判断文本情感属于{非常消极,消极,中立,积极,非常积极}中的哪一类 自动问答系统中的问句分类 社区问答系统中的问题分类:多标签多分类(对一段文本进行多分类,该文本可能有多个标签),如知乎看山杯 让AI做法官:基于案件事实描述文本的罚金等级分类(多分类)和法条分类(多标签多分类 如下图所⽰,输⼊是⼀个宽为7的⼀维数组,核数组的宽为2。 可以看到输出的宽度为 7 - 2 + 1 = 6,且第⼀个元素是由输⼊的最左边的宽为2的⼦数组与核数组按元素相乘后再相加得到的:0 × 1 + 1 × 2 = 2。 ?

    2.7K41发布于 2019-12-05
  • 来自专栏大模型应用

    大模型应用:基于本地大模型驱动的 MapReduce 文本总结与分类系统全解析.13

    前期我们已经详细的介绍了MapReduce的基本知识,今天我们以 “Qwen1.5-1.8B 驱动的超长文本总结系统” 和 “BERT 驱动的大规模新闻分类系统” 为双核心案例,深度解析 MapReduce CPU部署时,推理速度约1字/0.3秒,显存占用仅2GB,适合轻量级语义任务如文本总结、分类。 第7章 常见问题排查 部署中常见问题包括:1. 训练阶段MapReduce:使用MapReduce框架进行训练,包括数据分片、特征提取和模型训练。7. 代码示例"""中文新闻分类系统结合本地模型和MapReduce的大规模文本分类"""import randomfrom typing import List, Dict, Tuplefrom dataclasses 两个案例虽面向不同任务场景(生成式总结 / 判别式分类),但均遵循 “分治 - 并行 - 聚合” 的核心思想,通过轻量化 MapReduce 框架解决了本地大模型处理大规模文本的效率、资源、稳定性问题。

    20232编辑于 2026-02-10
  • 来自专栏爬虫逆向案例

    NLTK-007:分类文本(文档情感分类

    为了检查产生的分类器的可靠性,我们在测试集上计算其准确性。然后我们使用 show_most_informative_features()来找出哪些是分类器发现最有信息量的。 训练和测试一个分类器进行文档分类: featuresets = [(document_features(d),c) for (d,c) in documents] train_set,test_set 但是这个是手工的,我们这里可以训练一个分类器来算出哪个后缀最有信息量。 分类器在决定如何进行标注时,会完全依赖他们强调的属性。在这个情况下,分类器将只基于一个给定的词拥有(如果有)哪个常见的后缀的信息来做决定。 所以今天我们构造的词性分类器。 一个词性分类器,它的特征检测器检查一个词出现的上下文以便决定应该分配的词性标记。特别的,前面的词被作为一个特征。

    61210发布于 2021-11-22
  • 来自专栏大数据学习笔记

    Hadoop基础教程-第7MapReduce进阶(7.5 MapReduce 连接)

    7MapReduce进阶 7.4 MapReduce 连接 连接操作,也就是常说的join操作,是数据分析时经常用到的操作。 MapReduce join就是用来解决大数据的连接问题。 7.4.1 准备数据 这里准备了Oracle数据库中的经典数据。 dept.txt文件存放部门数据。 ; import org.apache.hadoop.mapreduce.lib.input.FileSplit; public class JoinMapper extends Mapper<LongWritable import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job ; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat

    29620编辑于 2022-05-06
  • 来自专栏PaddlePaddle

    文本分类】基于DNNCNN的情感分类

    本周推文目录如下: 周一:【点击率预估】 Wide&deep 点击率预估模型 周二:【文本分类】 基于DNN/CNN的情感分类 周三:【文本分类】 基于双层序列的文本分类模型 周四:【排序学习】 基于 Pairwise和Listwise的排序学习 周五:【结构化语义模型】 深度结构化语义模型 文本分类是自然语言处理领域最基础的任务之一,深度学习方法能够免除复杂的特征工程,直接使用原始文本作为输入,数据驱动地最优化分类准确率 在文本分类任务中,我们以情感分类任务为例,提供了基于DNN的非序列文本分类模型,以及基于CNN的序列模型供大家学习和使用(基于LSTM的模型见PaddleBook中情感分类一课http://www.paddlepaddle.org 简介 文本分类任务根据给定一条文本的内容,判断该文本所属的类别,是自然语言处理领域的一项重要的基础任务。 我们以情感分类任务为例,简单说明序列模型和非序列模型之间的差异。情感分类是一项常见的文本分类任务,模型自动判断文本中表现出的情感是正向还是负向。

    2K40发布于 2018-03-15
领券