首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大道七哥

    simhash文章

    使用方:Google基于此算法实现网页文件查。   优点:相对传统文本相似性方法(欧氏距离、海明距离、余弦角度),解决计算量庞大等问题。    看如下图,在距离为3时是一个比较折中的点,在距离为10时效果已经很差了,不过我们测试短文本很多看起来相似的距离确实为10。 如果使用距离为3,短文本大量重复信息不会被过滤,如果使用距离为10,长文本的错误率也非常高,如何解决?——采用分段函数! ? 2、评估指标      准确率(97%): 数据集:重新闻集      方式:人工(研发先评估、产品评估)      召回率(75%):          数据集:训练数据集-重新闻集          参考资料 中文文档simhash值计算 网页文本的算法介绍 海量数据相似度计算之simhash和海明距离 短文本合并重复(去)的简单有效做法 海明距离查询方案 原文链接:https://www.cnblogs.com

    1.8K30发布于 2019-09-10
  • 来自专栏黄啊码【CSDN同名】

    php去后重新键值

    更快的方式实现PHP数组去 1 /* 创建一个包含重复值的,一共四个元素的数组 */ 2 $array = array('green','blue','orange','blue'); 3 4 /

    2.2K20发布于 2020-05-29
  • 来自专栏博文视点Broadview

    网络爬虫之网页:语义指纹

    小编说:网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。 即使在同一个网站,有时候不同的URL地址可能对应同一个页面,或者存在同样的内容以多种方式显示出来,所以,网页需要按内容做文档。 例如,一个企业商品搜索。

    95620发布于 2020-06-11
  • 来自专栏字根中文校对软件

    UrlBloom Filter 算法、误差及其他

    UrlBloom Filter 算法、误差及其他 fly with me , in the perfect world --- 题记 最近看了一些书,公式和算法,用一个词把他们窜起来的话 误差换效率 google黑板报上一片文章,讲Url重用到的一个技巧:把平均长度较长的Url转换成平均长度较短的GUID来节省空间。 在Url方面还有一个常用的算法:Bloom Filter 算法。

    82730发布于 2019-02-14
  • 来自专栏腾讯云安全的专栏

    年关将至,看腾讯安全保如何兵布阵

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    4.4K10发布于 2020-01-09
  • 来自专栏苏三说技术

    10亿QQ号如何去

    前言 最近在网上看到一个问题:10亿QQ号如何去? 我觉得挺有意思的。 今天这篇文章跟大家一起分享一些常见的解决方案,希望对你会有所帮助。 一、技术难点 1.1 数据规模分析 原始数据:10亿×8字节 = 8GB HashSet去:至少16GB内存(Java对象开销) 理想方案:<1GB内存 1.2 核心挑战 二、单机解决方案:位图法 2.1 = ;       }   }   2.2 QQ号范围优化 QQ号范围:10000(5位) - 9999999999(10位) 位图内存计算: (10^10 - 10^4) / 8 / 1024/1024 架构层 技术栈 处理目标 批处理层 Spark + HDFS 全量数据去 速度层 Flink + Redis 实时增量去 服务层 Spring Boot + HBase 统一查询接口 6.3 实时去实现 亿QQ号去的本质,是将问题拆解到每个计算单元都能高效处理的粒度。

    35810编辑于 2025-07-17
  • 来自专栏腾讯安全

    这有一张腾讯安全兵布阵图,请查收

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件, 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    1K10发布于 2020-01-03
  • 来自专栏刷题笔记

    1-10 链表去 (20 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/100149932 1-10 链表去 (20 分) 给定一个带整数键值的链表 L,你需要把其中绝对值重复的键值结点删掉 例如给定 L 为 21→-15→-15→-7→15,你需要输出去后的链表 21→-15→-7,还有被删除的链表 -15→15。 输入格式: 输入在第一行给出 L 的第一个结点的地址和一个正整数 N(≤10​5​​,为结点总数)。一个结点的地址是非负的 5 位整数,空地址 NULL 用 -1 来表示。 随后 N 行,每行按以下格式描述一个结点: 地址 键值 下一个结点 其中地址是该结点的地址,键值是绝对值不超过10​4​​的整数,下一个结点是下个结点的地址。 输出格式: 首先输出去后的链表,然后输出被删除的链表。每个结点占一行,按输入的格式输出。

    74950发布于 2019-11-08
  • 来自专栏全栈开发日记

    win10装系统

    一键恢复 如果当前已经是win10系统,系统出现问题后可以一键恢复电脑,也就是普遍意义上的“恢复出厂设置”。 这个方式可以选择删除个人数据或不删除个人数据。 需要的工具: ①空间大于8GB的U盘; ②另一台可以下载东西的电脑(去网吧也可以); 具体步骤: 1、首先需要制作U盘启动盘 最好的方式是根据你自己电脑的品牌,然后给官方客服打电话,跟他要你电脑对应的win10 第二种是可以直接去浏览器搜索 win10 找到微软官方提供的下载页面,进去下载win10系统,切记要找对网站,否则很可能下载一堆病毒。 也可以直接复制网址(这里是不允许点击的) https://www.microsoft.com/zh-cn/software-download/windows10 在页面中点击 立即下载工具 ,记得下载到 选择完毕后保存退出(一般是F10+回车),一般电脑这时候会自动重启,进入安装系统界面。 接下来就是自己的选择了。在安装完毕之后会自动重启,进入你刚买电脑时候的设置语言等等界面。

    1.9K10编辑于 2022-05-12
  • 来自专栏C++

    【排序算法】堆、快、归并排、各种

    1、堆 2、快 颜色分类 颜色分类 class Solution { public: void sortColors(vector<int>& nums) { int i = 升序,找cur2之前有多少个数比我大。 +] = arr[b2++]; for (int i = l; i <= r; i++) arr[i] = tmp[i]; return ret; } }; 降序 int b1 = l, b2 = mid + 1, i = l; while (b1 <= mid && b2 <= r) { // 降序

    24810编辑于 2025-04-04
  • 来自专栏云鼎实验室的专栏

    庆余年-安全篇丨一图读懂腾讯安全保“兵布阵”

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    91110发布于 2020-01-08
  • 来自专栏技术进阶之路

    Win10 下 SQL Server 安装教程(坑版)

    按照老师发的不知道几百年前的教程安装的,果然凉凉,到最后安装进度都快完成的时候,弹出提示框,提示“is not a valid login or you do have permission”。

    2.9K10发布于 2020-07-31
  • 来自专栏Lcry个人博客

    Win10 操作系统命令窗口 cmd

    win10命令行有一个很大的坑,今日我是遇见了,包括看了几个网上授课的视频都是一样的遇到的这种情况,下面就带大家一起坑,主要是我们很多程序做测试需要后台运行,比如java -jar xxx.jar , 这样子直接后台跑一个web项目,然后你会很神奇的发现有时候项目就直接卡到不动了,网页也无法访问,其实是下面这个原因: 当你打开了win10 cmd 命令行窗口运行,不要去选中黑窗体内的内容,一旦选中,其实这个时候程序是暂停状态 窗口标题中有出现 ‘选择’ 开头的代表程序是暂停状态,下面对比一下: 这个时候你在命令行窗口右击一下鼠标,窗口 ‘选择’没有了,程序继续运行了 希望对大家有帮助吧,一般用得多命令行应该知道,主要是win10 关键字:win10命令窗口不运行 ,win10窗口暂停了,命令行选择暂停

    54521编辑于 2022-11-29
  • 来自专栏全栈程序员必看

    js数组去10种方法

    console.log(unique9([1, 1, 2, 3, 5, 3, 1, 5, 6, 7, 4])); // 结果是[1, 2, 3, 5, 6, 7, 4] Methods 10 function unique10(arr) { //Set数据结构,它类似于数组,其成员的值都是唯一的 return Array.from(new Set (arr)); // 利用Array.from将Set结构转换成数组 } console.log(unique10([1, 1, 2, 3, 5, 3, 1, 5, 6,

    79520编辑于 2022-09-14
  • 来自专栏小红豆的数据分析

    win10装系统教程

    将系统下载到装机U盘中 首先肯定要下一个系统,我建议大家直接去官网下个正版的win10,毕竟现在已经不要钱了,没必要再去网上找资源。 /windows10) ? 个人建议系统盘留下至少10G的空间。 ? 图3 到了这一步,系统就已经下载到U盘里,它清理的其实就是之前下载到系统盘里的东西。现在我们可以把U盘插入待装的机器中,正式开始装系统了。 按shift+F10进入命令行后,下图操作可以解决这些问题。 ? 微信图片_20200206215325.jpg 如果本来就是mbr,那么久转换为gpt格式。 现在已经装好系统了,接下来就是激活系统。 文章不让放链接,各位如果需要可以点赞后私聊我,获取系统激活软件以及win10配套的正版office安装包以及激活工具。

    2.6K20发布于 2020-02-18
  • 10GB以上TXT去方法介绍

    ,实际上操作系统不会让我们这么一直在内存添加数据,而且是会有限制的 (2)32操作系统和64位操作系统去支持最大数不一样,64位支持更多数据去,但是不能用32位程序在64操作系统去,这样就相当于32 位去。 所以现在根本没有软件可以做到超大文本去,受限于哈希表的长度和内存限制,根本无法做到软件达到一次去,超大文本去目前只可能是一种方法那就是将数据存入数据库用数据库去。 虽然我们不能做到一次性去,但是我们还是可以通过其他方法去,为此笔者想到一种分块去思想,虽然不能把所有文本去,但是可以分成块,一块一块去,这样可以降低文件大小,不失为一种好方法,一旦把文件大小降下来我们就可以降低去重任务数和占用空间 ,分块去好处就是对内存没有要求,对操作系统也没有要求。

    12500编辑于 2025-07-18
  • 来自专栏指剑的分享

    Windows10置MySQL用户密码

    登陆验证 参考网站: https://blog.csdn.net/qq_39220334/article/details/116236537 一、写在最前:实验环境 OS MySQL版本 Windows 10

    78210编辑于 2022-07-15
  • 来自专栏NewBeeNLP

    召回 粗,如何各司其职?

    -最纯粹 精是最纯粹的排序,也是最纯粹的机器学习模块。它的目标只有一个,就是根据手头所有的信息输出最准的预测。我们也可以看到,关于精的文章也是最多的。 精也是整个环节中的霸主,你在召回上的一个改进点,精没有get到,那你这个改进点就不能在实际环境中生效。前面的环节想要做出收益,都得精“施舍”。 粗-略显尴尬的定位 相比于召回和精,粗是定位比较尴尬的。在有的系统里,粗可以很丝滑的平衡计算复杂度和候选数量的关系。但是在有的例子中,粗可能只是精甚至召回的一个影子。 所以,粗的模型结构大多数情况下都很像精或者召回。 粗是一个非常容易照本宣科的地方,因为粗不是必需的环节。 如果你的候选数量非常少,那连召回都不需要了;如果你的精能吃的下召回的输出,那可以考虑实验对比是不是需要粗。但是假如不加粗,总感觉欠缺点什么。

    2.6K10发布于 2021-10-20
  • 来自专栏全栈程序员必看

    win10 loadrunner11_windows10装系统步骤

    一. 初识LoadRunner ( 点击链接跳转到LoadRunner的安装步骤 )

    1.2K20编辑于 2022-11-04
  • 来自专栏Rattenking

    Array 数组去 总结10方法(7)

    1,常规双循环去(缺点:循环次数较多) Array.prototype.unique1 = function(){ if(this === null){throw new TypeError('"this 必须在第二个循环外push到新的数组 (2,减少循环次数,在第二个循环中找到相等值,马上退出该循环 (3,每次循环对falg检验 (4,由于第一值直接赋值,所以不用检测第一个值 2,数组的sort先排序再去( 7,数组的some方法 Array.prototype.unique10 = function(){ if(this === null){throw new TypeError('"this" is function(val){return val === that[i]}).length === 0){ res.push(that[i]); } } return res; } 10 return val === that[i]})){ res.push(that[i]); } } return res; } 还有lastIndexOf,findIndex等方法也能做去

    52310发布于 2021-01-29
领券