搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏python3
Python文本去重
用法：命令行python unique.py -f file.txt 输出：去除重复字符后的output.txt
3K10发布于 2020-01-06
来自专栏韦东山嵌入式
9_重定位
此节配套的源码在**裸机Git仓库 NoosProgramProject/(9_重定位/02_clean_bss)**目录内。该程序放在**裸机Git仓库 NoosProgramProject/(9_重定位/003_without_relocation)**文件夹内。重定位/003_without_relocation)和目录裸机Git仓库 NoosProgramProject/中(9_重定位/004_manual_relocate_data)**中的程序分别烧录、工程文件放在裸机Git仓库 NoosProgramProject/(9_重定位/005_relocate_data_with_c)目录内。工程文件放在裸机Git仓库 NoosProgramProject/(9_重定位/007_relocate_all_with_c) 目录下。
1.4K10编辑于 2022-05-05
来自专栏Spark学习技巧
面试|海量文本去重~simhash
simhash算法是google发明的，专门用于海量文本去重的需求，所以在这里记录一下simhash工程化落地问题。下面我说的都是工程化落地步骤，不仅仅是理论。被抄袭的文章一般不改，或者少量改动就发表了，所以判重并不是等于的关系，而是相似判断，这个判别的算法就是simhash。结巴分词支持加载IDF词典并且提供了一个默认的词典，它包含了大量的词组以及基于海量文本统计出来的IDF词频，基本可以拿来即用，除非你想自己去挖掘这样一个字典。判重假设有一个新的simhash希望判重，它的simhash值是： a=0000000000000000,b=000000001111110,c=1111111100000001,d=111111111111110 1字节的抽屉标识，比如是切4段则标识是1,2,3,4；切5段则可以是1,2,3,4,5,6,7,8,9,10，分别代表(a,b)，(a,c)，(a,d)，(a,e)，(b,c) … 然后最后追加上simhash
3.3K30发布于 2018-12-28
来自专栏Spark学习技巧
面试|海量文本去重～minhash
比如网页去重、推断帖子是否相似、推荐系统衡量物品或者用户的相似度等等。当数据量大的时候，计算的时间和空间复杂度就会是一个很重要的问题，比如在推断相似发帖的时候。我们能够用kmeans来进行聚类。桶1——>doc1，doc2，doc3，doc4 桶2——>doc2，doc5，doc9，doc10 索引建立完毕了之后，下一步就是检索，一篇新的文档。也要经过全面的步骤，得到对应的桶。
3.1K30发布于 2018-12-28
来自专栏Laikee Tech Space
layui 异步数据排序重加载
//console.log(obj.type); //当前排序类型：desc（降序）、asc（升序）、null（空对象，默认排序） //console.log( this); //当前排序的 th 对象 //type 0 积分降序 1积分升序 2邀请数降序 3邀请数升序 // if(obj.field { type=""; } } if(obj.field=="invitenum"){ //积分排序 //console.log(type); 　　　　　　table.reload('userList-table', { 　　　　　　 initSort: obj, //记录初始排序，如果不设的话，将无法标记表头的排序状态。
71720编辑于 2022-04-25
来自专栏全栈程序员必看
java数组排序去重_JAVA数组去重排序
; i++) { arr[i] = (int) (Math.random() * 100) + 1; //随机赋值 System.out.print(arr[i] + ” “); } /* *冒泡排序法 } System.out.println(); for (int i = 0; i < arr.length; i++) { System.out.print(arr[i] + ” “); //排序后的数组 } /* * 数组去重 */ for(int i=0;i0&&arr[i-1]==arr[i]) break; System.out.print(arr[i] + ” “); }//去重后的数组 }
1.6K30编辑于 2022-09-07
来自专栏sunsky
使用SimHash进行海量文本去重
SimHash算法思想　　假设我们有海量的文本数据，我们需要根据文本内容将它们进行去重。对于文本去重而言，目前有很多NLP相关的算法可以在很高精度上来解决，但是我们现在处理的是大数据维度上的文本去重，这就对算法的效率有着很高的要求。 SimHash算法是Google公司进行海量网页去重的高效算法，它通过将原始的文本映射为64位的二进制数字串，然后通过比较二进制数字串的差异进而来表示原始文本内容的差异。回到顶部 3. 1 -1 1 9”。 5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。
2.9K20发布于 2020-08-19
来自专栏深度学习|机器学习|歌声合成|语音合成
基于词向量的文本查重
基于词向量的文本查重 import gensim import numpy as np import jieba from gensim.models.doc2vec import Doc2Vec, LabeledSentence
1.3K10发布于 2021-01-14
来自专栏乐行僧的博客
9-选择排序算法
注意点：不稳定的排序算法代码： #include <stdio.h> typedef int bool; #define true 1 #define false 0 void swap(int swap(&a[minIndex], &a[i]); } } } int main() { int a[] = {3, 1, 2, 4, 7, 0, 5, 8, 6, 9}
14840编辑于 2022-02-25
来自专栏Spark学习技巧
必读|spark的重分区及排序
当时浪尖也在星球里讲了一下，整个关于分区排序的内容。今天，在这里给大家分享一下。昨天说了，mapPartitions 的使用技巧。假如，后面再跟mapPartitions算子的话，其算子就是针对已经按照key排序的分区，这就有点像mr的意思了。 repartitionAndSortWithinPartitions 也可以用于二次排序。下面举个简单的例子。 part-00001 part-00002 mdhdeMacBook-Pro-3:output mdh$ head -n 10 part-00000 (24,the) (12,for) (9, ##) (9,and) (6,is) (6,in) (3,general) (3,documentation) (3,example) (3,how) mdhdeMacBook-Pro-3:output
1.5K20发布于 2019-05-09
来自专栏Spark学习技巧
必读|spark的重分区及排序
当时浪尖也在星球里讲了一下，整个关于分区排序的内容。今天，在这里给大家分享一下。更多大数据小技巧及调优，spark的源码文章，原理文章及源码视频请加入知识星球。假如，后面再跟mapPartitions算子的话，其算子就是针对已经按照key排序的分区，这就有点像mr的意思了。 repartitionAndSortWithinPartitions 也可以用于二次排序。下面举个简单的例子。 part-00001 part-00002 mdhdeMacBook-Pro-3:output mdh$ head -n 10 part-00000 (24,the) (12,for) (9, ##) (9,and) (6,is) (6,in) (3,general) (3,documentation) (3,example) (3,how) mdhdeMacBook-Pro-3:output
1.9K20发布于 2018-08-20
来自专栏全栈程序员必看
如何做文本分析_大数据文本行去重
SimHash算法思想　　假设我们有海量的文本数据，我们需要根据文本内容将它们进行去重。对于文本去重而言，目前有很多NLP相关的算法可以在很高精度上来解决，但是我们现在处理的是大数据维度上的文本去重，这就对算法的效率有着很高的要求。 SimHash算法是Google公司进行海量网页去重的高效算法，它通过将原始的文本映射为64位的二进制数字串，然后通过比较二进制数字串的差异进而来表示原始文本内容的差异。回到顶部 3. 1 -1 1 9”。 5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为 1，小于0 记为 0。
76460编辑于 2022-11-15
一款可以对文本去重对比去重单去重查重的好用软件介绍文本综合处理软件教程
文本综合处理软件是一款专门用于重复类型处理文本的软件（1）可以对比去重，比如文本A和文本B,B中含有A的就去除（2）可以对单个文本去重 (3)可以查找文本A和文本B相同的文本（4）可以对文本A和文本 B合并去重 (5)可以去除文本中含有重复文本，包括重复文本本身，即有重复全部删除，更多好用软件请关注微信公众号未来自主研究中心
21000编辑于 2025-07-18
来自专栏深度学习之tensorflow实战篇
文本去重的技术方案讨论（一）
对于文本去重来说，我个人处理上会从数据量、文本特征、文本长度（短文本、长文本）几个方向考虑。常见的去重任务，如网页去重，帖子去重，评论去重等等。好的去重任务是不仅比对文本的相似性，还要比对语义上的相似性。下面我们来介绍下文本去重的方案。 simhash是google用来处理海量文本去重的算法。 google出品，你懂的。 1 -1 1 9”。 5、降维，把4步算出来的 “9 -9 1 -1 1 9” 变成 0 1 串，形成我们最终的simhash签名。如果每一位大于0 记为1，小于0 记为 0。
1.7K30发布于 2019-01-28
来自专栏云计算与大数据技术
MapReduce读取文本，实现降序排序
import org.apache.hadoop.util.Tool; import org.apache.hadoop.util.ToolRunner; /** * TODO MapReduce读取文本，实现降序排序 * @author com * @Date 2019年9月28日 Configured */ public class Top5 extends Configured implements job.setInputFormatClass(TextInputFormat.class); job.setOutputFormatClass(TextOutputFormat.class); // 9、
1.2K20发布于 2021-04-27
来自专栏天马行空布鲁斯
关于文本排序的那些事
这里讨论的文本排序不是一个排序算法，而是作为某个排序算法的底层依赖，常常在多语言环境下需要考虑，比如说中文的排序，日文的排序。本文讨论的文本排序就属于本地化范畴。一个系统要做到全球化，需要仔细考虑文本排序，因为文本排序可能会影响到系统的架构。之前就遇到过一个关于文本排序的问题，问题的原型是：有一个电商平台，商家可以在平台上开店，在商家的后台产品管理界面，商家看到的产品列表默认以名字排序。编程语言的支持对于文本排序，各个开发语言也都有很好的支持。文本搜索：字典树，Trie，按照字典排序。具体可以阅读：看动画轻松理解「Trie树」。
2.2K20发布于 2019-07-30
来自专栏搞前端的李蚊子
数组对象的去重然后排序
data: 1 },{ name: 'fff', data: 4 }, ]; const sort = arr => { // 去重 val.name] = val; newArr.push(val); }; }); // 最简单的使用sort去重 let sortArr = newArr.sort((a, b) => { return a.data - b.data; }); // 冒泡排序去重
1.3K130发布于 2018-03-14
来自专栏AI那点小事
算法提高 9-2 文本加密
问题描述　　先编写函数EncryptChar,按照下述规则将给定的字符c转化（加密）为新的字符：”A”转化”B”，”B”转化为”C”，… …”Z”转化为”a”，”a”转化为”b”,… …, “z”转化为”A”，其它字符不加密。编写程序，加密给定字符串。样例输出与上面的样例输入对应的输出。例：
52940发布于 2020-04-20
来自专栏API安全
9月重点关注这些API漏洞
为了让大家的API更加安全致力于守护数字世界每一次网络调用小阑公司 PortalLab实验室的同事们给大家整理了9月份的一些API安全漏洞报告希望大家查漏补缺及时修复自己API可能出现的漏洞No.1 No.3 JumpServer未授权访问漏洞漏洞详情：9月19日，JumpServer发布了JumpServer的风险通告，漏洞编号为CVE-2023-42442。
1.6K10编辑于 2023-10-09
来自专栏小鹏的专栏
基于召回和排序的文本搜索
key] for key in match_pre.keys()] ) ) print ("candidate_doc_dict:", candidate_doc_dict) # 再排序 edit_sim', 'jaccard_sim'] text_match_res = text_match_sort( query, candidate_doc_dict ) print ('排序的 score>>>>>', text_match_res) ''' # 排序 mf = ModelFactorySearch( match_models=['bm25', jaccard_sim'] ) mf.init(words_dict=candidate_doc_dict) pre = mf.predict(query) print ('排序的结果 0.9999999210000139, '4': 0.5460526286735667} candidate_doc_dict: {'2': '我在九寨沟', '3': '我在九寨沟,很喜欢', '4': '很喜欢'} 排序的
1.2K30发布于 2020-10-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Python文本去重

9_重定位

面试|海量文本去重~simhash

面试|海量文本去重～minhash

layui 异步数据排序重加载

java数组排序去重_JAVA数组去重排序

使用SimHash进行海量文本去重

基于词向量的文本查重

9-选择排序算法

必读|spark的重分区及排序

必读|spark的重分区及排序

如何做文本分析_大数据文本行去重

一款可以对文本去重对比去重单去重查重的好用软件介绍文本综合处理软件教程

文本去重的技术方案讨论（一）

MapReduce读取文本，实现降序排序

关于文本排序的那些事

数组对象的去重然后排序

算法提高 9-2 文本加密

9月重点关注这些API漏洞

基于召回和排序的文本搜索

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐