首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大道七哥

    simhash文章

    使用方:Google基于此算法实现网页文件查。   优点:相对传统文本相似性方法(欧氏距离、海明距离、余弦角度),解决计算量庞大等问题。    —其他简单方案:        百度大搜的去算法比较简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。       工程实现巨简单,据说准确率和召回率都能到达80%以上。    2、评估指标      准确率(97%): 数据集:重新闻集      方式:人工(研发先评估、产品评估)      召回率(75%):          数据集:训练数据集-重新闻集          参考资料 中文文档simhash值计算 网页文本的算法介绍 海量数据相似度计算之simhash和海明距离 短文本合并重复(去)的简单有效做法 海明距离查询方案 原文链接:https://www.cnblogs.com

    1.8K30发布于 2019-09-10
  • 来自专栏黄啊码【CSDN同名】

    php去后重新键值

    更快的方式实现PHP数组去 1 /* 创建一个包含重复值的,一共四个元素的数组 */ 2 $array = array('green','blue','orange','blue'); 3 4 /

    2.2K20发布于 2020-05-29
  • 来自专栏博文视点Broadview

    网络爬虫之网页:语义指纹

    小编说:网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。 即使在同一个网站,有时候不同的URL地址可能对应同一个页面,或者存在同样的内容以多种方式显示出来,所以,网页需要按内容做文档。 例如,一个企业商品搜索。

    95620发布于 2020-06-11
  • 来自专栏字根中文校对软件

    UrlBloom Filter 算法、误差及其他

    UrlBloom Filter 算法、误差及其他 fly with me , in the perfect world --- 题记 最近看了一些书,公式和算法,用一个词把他们窜起来的话 误差换效率 google黑板报上一片文章,讲Url重用到的一个技巧:把平均长度较长的Url转换成平均长度较短的GUID来节省空间。 在Url方面还有一个常用的算法:Bloom Filter 算法。

    82730发布于 2019-02-14
  • 来自专栏腾讯云安全的专栏

    年关将至,看腾讯安全保如何兵布阵

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    4.4K10发布于 2020-01-09
  • 来自专栏云技术+云运维

    suse11置密码

    1、重新启动机器,在出现grub引导界面后,选择Failsafe模式,按键e,此时光标移到下面的Boot Options:————,将里面的默认的内容全删除,键入:init=/bin/bash,回车启动系统

    3.1K10发布于 2019-10-29
  • 来自专栏程序猿~

    Lombok 1.16.14 不支持JDK11-坑记录

    背景 在使用Idea+SpringBoot+JDK11+Lombok1.16.14启动项目时, 出现Error:java: java.lang.ExceptionInInitializerError, 问题原因及就解决办法 Lombok1.16.14版本与JDK11不兼容, 将Lombok版本替换至1.18.4即可 Maven - Lombok-1.16.14 <dependency> <groupId

    1.8K10发布于 2020-11-24
  • 来自专栏腾讯安全

    这有一张腾讯安全兵布阵图,请查收

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件, 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    1K10发布于 2020-01-03
  • 来自专栏C++

    【排序算法】堆、快、归并排、各种

    1、堆 2、快 颜色分类 颜色分类 class Solution { public: void sortColors(vector<int>& nums) { int i = 升序,找cur2之前有多少个数比我大。 +] = arr[b2++]; for (int i = l; i <= r; i++) arr[i] = tmp[i]; return ret; } }; 降序 int b1 = l, b2 = mid + 1, i = l; while (b1 <= mid && b2 <= r) { // 降序

    24810编辑于 2025-04-04
  • 来自专栏c/c++

    数据结构——lesson11序之快速排序

    right);//递归调用右边 } 结果如下: 如下图递归完一次之后int a[] = { 8,4,6,9,1,3,5,0,7,2 };最左边的数8找到了它最合适的位置——倒数第二位 完序结果如下 左序列再调用左右序列…,并且空间是可以复用的,左边归还之后调用右边序列则可以重复使用,所以调用的空间是logN(以2为底); 非递归实现使用了栈,与递归过程类似; 4.2快速排序时间复杂度 快改良版的时间复杂度是

    19410编辑于 2024-04-04
  • 来自专栏云鼎实验室的专栏

    庆余年-安全篇丨一图读懂腾讯安全保“兵布阵”

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    91110发布于 2020-01-08
  • 来自专栏NewBeeNLP

    召回 粗,如何各司其职?

    -最纯粹 精是最纯粹的排序,也是最纯粹的机器学习模块。它的目标只有一个,就是根据手头所有的信息输出最准的预测。我们也可以看到,关于精的文章也是最多的。 精也是整个环节中的霸主,你在召回上的一个改进点,精没有get到,那你这个改进点就不能在实际环境中生效。前面的环节想要做出收益,都得精“施舍”。 粗-略显尴尬的定位 相比于召回和精,粗是定位比较尴尬的。在有的系统里,粗可以很丝滑的平衡计算复杂度和候选数量的关系。但是在有的例子中,粗可能只是精甚至召回的一个影子。 所以,粗的模型结构大多数情况下都很像精或者召回。 粗是一个非常容易照本宣科的地方,因为粗不是必需的环节。 如果你的候选数量非常少,那连召回都不需要了;如果你的精能吃的下召回的输出,那可以考虑实验对比是不是需要粗。但是假如不加粗,总感觉欠缺点什么。

    2.6K10发布于 2021-10-20
  • 来自专栏AVAJ

    快速排序 思路:快速排序每次都是定位一个元素在数组中的绝对位置,简单说就是一个元素,在排好序后他的位置是一定的(当然快是不稳定的),你每次选定一个元素,然后定位其排好序后的位置,再把这个元素从数组中去掉

    89250发布于 2019-10-13
  • 来自专栏C++开发

    制作---2020年第11届蓝桥杯省赛(填空题)

    13410编辑于 2024-12-09
  • 来自专栏量子位

    TensorFlow只11

    具体来说,提问者会给问题加标签,Quartz就把今年1月-11月之间增长最快的那些标签找出来了。 结果发现,有10个标签的增幅超过了TensorFlow。 Vue.js增长最快 ? 今年1月,关于Vue.js的问题,只发布了900多条; 今年11月,关于Vue.js的问题,发布了接近1,600条。 增长最迅猛,涨幅达到64%。 ? 另外,数据科学家最喜欢的语言Python,以及机器学习框架TensorFlow,分别排在第10和第11,稳步增长。 也就是说,11月发布的问题数,已经不及1月的一半了。 ? Bootstrap的一个主要功能,就是让网页布局在不同的浏览器里正常显示。 从前,不同的浏览器,理解代码的方式可能会非常不同。

    71520发布于 2019-04-24
  • 来自专栏tkokof 的技术,小趣及杂念

    “快”笔记

    (快速排序)便是这次笔记的主题,话说在各类排序算法中,“快”应该算是“明星”算法了,因其时间、空间复杂度俱佳,而被广泛运用于实际程序开发中(也许上面那个 sort 便是 :)),网上已有非常多优秀的教程说明 循环1、2两步于上述所划分的两部分数据之上,直到部分只剩下一个数据元素为止   根据上述的算法步骤,一个典型的快程序,大抵便是这个样子: /*! (或者说对于很多二分(甚至多分)算法)实现的一般方法,有趣的是,上面提到的书籍中也说到了另一种实现快算法的“循环”方式,颇有趣味: //! ,那么快的并行实现就会变的相对明晰,而这个任务分解,其实就是上面快“循环”实现的一个延伸: struct SortParam { int* a; int l; int r; ,觉得也很有意思,一并摘录如下:(代码中用到了不少C++11特性,gcc4.8.1编译应该没有问题,至于VS2013和Clang就没有测试了:)) #include <iostream> #include

    83130发布于 2018-08-02
  • 来自专栏ml

    公式

    公式 百科名片 pala提出的问题: 十本不同的书放在书架上。现重新摆放,使每本书都不在原来放的位置。有几种摆法? 这个问题推广一下,就是错问题: n个有序的元素应有n!种不同的排列。 如若一个排列式的所有的元素都不在原来的位置上,则称这个排列为错。 目录 递推的方法推导错公式容斥原理简化公式 编辑本段递推的方法推导错公式 当n个编号元素放在n个编号位置,元素编号与位置编号各不对应的方法数用M(n)表示,那么M(n-1)就表示n-1个编号元素放在 种排列,由于是错,这些排列应排除,但是此时把同时有两个数不错的排列多排除了一次,应补上;在补上时,把同时有三个数不错的排列多补上了一次,应排除;……;继续这一过程,得到错的排列种数为 M(n)= ={0,0,1},sum1,sum2; 8 for(i=3;i<=20;i++) 9 { 10 arr[i]=(i-1)*(arr[i-1]+arr[i-2]); 11

    1.5K90发布于 2018-03-21
  • 来自专栏算法与数据之美

    普通快与随机快的世纪大战

    方法 103 104 105 106 107 5*107 108 普通快 0.00204557 0.02453995 0.32335813 4.83641084 63.91342704 456.20516078 1176.27041785 随机快 0.00228848 0.03292949 0.39734049 5.41323487 66.26046769 451.38552999 1108.05737074 也可以使用可视化的方法将上表变得更加清楚,普通排序在数据量较小时具有一定的性能优势,随机快可能是因为添加了随机选择这一项操作而影响了部分性能,但是随着数据量进一步增大,两者之间的性能会非常接近。 接下来是对有序序列进行测试, 方法 103 104 105 106 普通快 0.06262696 / / / 随机快 0.03440228 0.45189877 7.28055120 95.54553382 普通快排在数据量非常小的时候就把栈给挤爆喽,从另一侧面反映出随机快的必要性,在处理比较极端也就是完全有序的序列时具有较大的优势。

    85510发布于 2020-01-17
  • 来自专栏爱撸猫的杰

    QuickSearch快

    pos = QKpass(arr, low, high); //划分两个子表 QKsort(arr, low, pos - 1); //对左子表快 QKsort(arr, pos + 1, high); //对右子表快 } } /** * 一趟快速排序算法 public static int QKpass(int[] arr, int low, int high) { int temp = arr[low]; //先把当前元素作为待

    58810发布于 2020-09-22
  • 来自专栏SAP ERP管理实践

    动态程:生产计划程的关键!

    上面所列出的数据需要完备性,缺少任意一种均不能进行有限资源能力的程,同时所有数据也需要准确性,基础数据的准确性决定着计划程的可执行性。 02 如何做一个可执行的 生产计划程与程? 一般采用周期性的调度和再调度相结合的策略,定义一些关键事件,如设备故障、订单改变等,当关键事件发生时,立即重新调度,这也称为基于事件的调度方式;否则,周期性调度,即进行所谓的动态调度,或者称为再调度、调度 另外,动态程与程试算,许多人将这两者混为一谈,甚至许多APS软件也用程试算等于动态程的思想进行宣传,其实这两者有着本质的区别。 程试算是反复进行重新程试计算,是在各种不同条件下的预程,是提前进行的试计算,是为了在实际生产之前确定一套最好的程方案;而动态程是指一次程方案的局部调整,具体是计划在执行过程中因为生产实际情况发生改变而进行的适应改变的调整计算 由于频繁的插单、删单,生产计划程经常会被打乱成面目全非,这时APS的动态程、实时调整的功能就显得异常了。

    1.6K22发布于 2019-10-31
领券