首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大道七哥

    simhash文章

    使用方:Google基于此算法实现网页文件查。   优点:相对传统文本相似性方法(欧氏距离、海明距离、余弦角度),解决计算量庞大等问题。    —其他简单方案:        百度大搜的去算法比较简单,就是直接找出此文章的最长的n句话,做一遍hash签名。n一般取3。       工程实现巨简单,据说准确率和召回率都能到达80%以上。    2、评估指标      准确率(97%): 数据集:重新闻集      方式:人工(研发先评估、产品评估)      召回率(75%):          数据集:训练数据集-重新闻集          参考资料 中文文档simhash值计算 网页文本的算法介绍 海量数据相似度计算之simhash和海明距离 短文本合并重复(去)的简单有效做法 海明距离查询方案 原文链接:https://www.cnblogs.com

    1.8K30发布于 2019-09-10
  • 来自专栏黄啊码【CSDN同名】

    php去后重新键值

    更快的方式实现PHP数组去 1 /* 创建一个包含重复值的,一共四个元素的数组 */ 2 $array = array('green','blue','orange','blue'); 3 4 /

    2.2K20发布于 2020-05-29
  • 来自专栏博文视点Broadview

    网络爬虫之网页:语义指纹

    小编说:网络爬虫让我们高效地从网页获取到信息,但网页的重复率很高,网页需要按内容做文档,而判断文档的内容重复有很多种方法,语义指纹是其中比较高效的方法。 即使在同一个网站,有时候不同的URL地址可能对应同一个页面,或者存在同样的内容以多种方式显示出来,所以,网页需要按内容做文档。 例如,一个企业商品搜索。

    94920发布于 2020-06-11
  • 来自专栏字根中文校对软件

    UrlBloom Filter 算法、误差及其他

    UrlBloom Filter 算法、误差及其他 fly with me , in the perfect world --- 题记 最近看了一些书,公式和算法,用一个词把他们窜起来的话 误差换效率 google黑板报上一片文章,讲Url重用到的一个技巧:把平均长度较长的Url转换成平均长度较短的GUID来节省空间。 在Url方面还有一个常用的算法:Bloom Filter 算法。

    82130发布于 2019-02-14
  • 来自专栏腾讯云安全的专栏

    年关将至,看腾讯安全保如何兵布阵

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    4.4K10发布于 2020-01-09
  • 来自专栏腾讯安全

    这有一张腾讯安全兵布阵图,请查收

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件, 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    1K10发布于 2020-01-03
  • 来自专栏C++

    【排序算法】堆、快、归并排、各种

    1、堆 2、快 颜色分类 颜色分类 class Solution { public: void sortColors(vector<int>& nums) { int i = 升序,找cur2之前有多少个数比我大。 +] = arr[b2++]; for (int i = l; i <= r; i++) arr[i] = tmp[i]; return ret; } }; 降序 int b1 = l, b2 = mid + 1, i = l; while (b1 <= mid && b2 <= r) { // 降序

    23310编辑于 2025-04-04
  • 来自专栏云鼎实验室的专栏

    庆余年-安全篇丨一图读懂腾讯安全保“兵布阵”

    年关将至,在各行各业准备享受假期的时候 安全从业者却不敢有丝毫放松 因为在节假日、大型活动等“重要时刻” 网络安全的压力总是比平常大得多 一旦发生安全事件 带来的负面效应也是不能承受之 下拉收好这份腾讯安全保战略秘籍

    90610发布于 2020-01-08
  • 来自专栏NewBeeNLP

    召回 粗,如何各司其职?

    -最纯粹 精是最纯粹的排序,也是最纯粹的机器学习模块。它的目标只有一个,就是根据手头所有的信息输出最准的预测。我们也可以看到,关于精的文章也是最多的。 精也是整个环节中的霸主,你在召回上的一个改进点,精没有get到,那你这个改进点就不能在实际环境中生效。前面的环节想要做出收益,都得精“施舍”。 粗-略显尴尬的定位 相比于召回和精,粗是定位比较尴尬的。在有的系统里,粗可以很丝滑的平衡计算复杂度和候选数量的关系。但是在有的例子中,粗可能只是精甚至召回的一个影子。 所以,粗的模型结构大多数情况下都很像精或者召回。 粗是一个非常容易照本宣科的地方,因为粗不是必需的环节。 如果你的候选数量非常少,那连召回都不需要了;如果你的精能吃的下召回的输出,那可以考虑实验对比是不是需要粗。但是假如不加粗,总感觉欠缺点什么。

    2.6K10发布于 2021-10-20
  • 来自专栏AVAJ

    快速排序 思路:快速排序每次都是定位一个元素在数组中的绝对位置,简单说就是一个元素,在排好序后他的位置是一定的(当然快是不稳定的),你每次选定一个元素,然后定位其排好序后的位置,再把这个元素从数组中去掉

    88550发布于 2019-10-13
  • 来自专栏tkokof 的技术,小趣及杂念

    “快”笔记

    我想大抵可能便如上所述,“娇惯纵容”多了,以前只要简单的调调 sort,而今真刀实枪起来便不胜招架了,也罢,有了些许教训,也算进一步认识到“知其然不知其所以然”的道理,在此简单笔记一番,引以为戒吧 ~   而“快” (快速排序)便是这次笔记的主题,话说在各类排序算法中,“快”应该算是“明星”算法了,因其时间、空间复杂度俱佳,而被广泛运用于实际程序开发中(也许上面那个 sort 便是 :)),网上已有非常多优秀的教程说明 循环1、2两步于上述所划分的两部分数据之上,直到部分只剩下一个数据元素为止   根据上述的算法步骤,一个典型的快程序,大抵便是这个样子: /*! (或者说对于很多二分(甚至多分)算法)实现的一般方法,有趣的是,上面提到的书籍中也说到了另一种实现快算法的“循环”方式,颇有趣味: //! ,那么快的并行实现就会变的相对明晰,而这个任务分解,其实就是上面快“循环”实现的一个延伸: struct SortParam { int* a; int l; int r;

    82030发布于 2018-08-02
  • 来自专栏ml

    公式

    公式 百科名片 pala提出的问题: 十本不同的书放在书架上。现重新摆放,使每本书都不在原来放的位置。有几种摆法? 这个问题推广一下,就是错问题: n个有序的元素应有n!种不同的排列。 如若一个排列式的所有的元素都不在原来的位置上,则称这个排列为错。 目录 递推的方法推导错公式容斥原理简化公式 编辑本段递推的方法推导错公式 当n个编号元素放在n个编号位置,元素编号与位置编号各不对应的方法数用M(n)表示,那么M(n-1)就表示n-1个编号元素放在 种排列,由于是错,这些排列应排除,但是此时把同时有两个数不错的排列多排除了一次,应补上;在补上时,把同时有三个数不错的排列多补上了一次,应排除;……;继续这一过程,得到错的排列种数为 M(n)= pid=2049 这道题的做法是求第N个数种的有几个错的种数。  m=C(n,m)*f(m);然后就可以直接写代码了。。。。

    1.5K90发布于 2018-03-21
  • 来自专栏爱撸猫的杰

    QuickSearch快

    pos = QKpass(arr, low, high); //划分两个子表 QKsort(arr, low, pos - 1); //对左子表快 QKsort(arr, pos + 1, high); //对右子表快 } } /** * 一趟快速排序算法 public static int QKpass(int[] arr, int low, int high) { int temp = arr[low]; //先把当前元素作为待

    58610发布于 2020-09-22
  • 来自专栏算法与数据之美

    普通快与随机快的世纪大战

    方法 103 104 105 106 107 5*107 108 普通快 0.00204557 0.02453995 0.32335813 4.83641084 63.91342704 456.20516078 1176.27041785 随机快 0.00228848 0.03292949 0.39734049 5.41323487 66.26046769 451.38552999 1108.05737074 也可以使用可视化的方法将上表变得更加清楚,普通排序在数据量较小时具有一定的性能优势,随机快可能是因为添加了随机选择这一项操作而影响了部分性能,但是随着数据量进一步增大,两者之间的性能会非常接近。 接下来是对有序序列进行测试, 方法 103 104 105 106 普通快 0.06262696 / / / 随机快 0.03440228 0.45189877 7.28055120 95.54553382 普通快排在数据量非常小的时候就把栈给挤爆喽,从另一侧面反映出随机快的必要性,在处理比较极端也就是完全有序的序列时具有较大的优势。

    85110发布于 2020-01-17
  • 来自专栏SAP ERP管理实践

    动态程:生产计划程的关键!

    上面所列出的数据需要完备性,缺少任意一种均不能进行有限资源能力的程,同时所有数据也需要准确性,基础数据的准确性决定着计划程的可执行性。 02 如何做一个可执行的 生产计划程与程? 一般采用周期性的调度和再调度相结合的策略,定义一些关键事件,如设备故障、订单改变等,当关键事件发生时,立即重新调度,这也称为基于事件的调度方式;否则,周期性调度,即进行所谓的动态调度,或者称为再调度、调度 另外,动态程与程试算,许多人将这两者混为一谈,甚至许多APS软件也用程试算等于动态程的思想进行宣传,其实这两者有着本质的区别。 程试算是反复进行重新程试计算,是在各种不同条件下的预程,是提前进行的试计算,是为了在实际生产之前确定一套最好的程方案;而动态程是指一次程方案的局部调整,具体是计划在执行过程中因为生产实际情况发生改变而进行的适应改变的调整计算 由于频繁的插单、删单,生产计划程经常会被打乱成面目全非,这时APS的动态程、实时调整的功能就显得异常了。

    1.6K22发布于 2019-10-31
  • 来自专栏鳄鱼儿的技术分享

    问题--错公式的推导及应用

    这是我参与「掘金日新计划 · 10 月更文挑战」的第22天,点击查看活动详情 错问题 错问题是组合数学中的问题之一。 考虑一个有n个元素的排列,若一个排列中所有的元素都不在自己原来的位置上,那么这样的排列就称为原排列的一个错。 n个元素的错数记为Dn。 研究一个排列错个数的问题,叫做错问题或称为排列问题。 当k排在第n位时,除了n和k以外还有n-2个数,其错数为Dn-2。 当k不排在第n位时,那么将第n位重新考虑成一个新的“第k位”,这时的包括k在内的剩下n-1个数的每一种错,都等价于只有n-1个数时的错(只是其中的第k位会换成第n位)。其错数为Dn-1。 于是有 所以 将上面式子分边累加,得 因此,我们得到错公式 简化公式 错位排列数的公式可以简化为: 其中的 为高斯取整函数(小于等于 n 的最大整数)。

    75010编辑于 2024-05-22
  • 来自专栏NewBeeNLP

    推荐算法召回-粗-精

    Pre-rank 粗排位置十分尴尬,位于精前,召回后。实际上,由于精的性能问题,它不可能将召回的结果全部,所以需要一个模型提高排序的性能,因此粗排他就是 精的影子,拟合精结果的序 。 在我这边的方案是: 3.1 精的topN作为样本 粗排位置十分尴尬,位于精前,召回后。 实际上,由于精的性能问题,它不可能将召回的结果全部,所以需要一个模型提高排序的性能,因此粗排他就是 精的影子,拟合精结果的序 。 3.1.2 精排线上最终预估分拟合 一般粗的模型是单目标的(精的序)而精的线上预估分又依赖与商业需要调整,那么根据业务需要将精多目标结果去构建预估分并按照其排序。 3.3 蒸馏精 一直以来我们的目标都是拟合精的序, 那么我们是否能够在精训练的时候让粗也跟着学习精的得分 ,蒸馏也就应运而生。

    4.4K10编辑于 2022-11-16
  • 关于召回、粗、精和重排简单介绍

    (Coarse Ranking) 起源:粗的概念是在推荐系统追求更高性能和效率的过程中形成的。由于召回阶段可能会产生大量的候选物品,直接对所有候选物品进行精细排序可能会导致计算成本过高。 因此,粗阶段的作用是对候选物品进行初步排序,过滤掉明显不符合用户兴趣的物品,减少后续精的计算量。 目的:在保证一定召回率的前提下,减少候选物品的数量,提高后续排序阶段的效率。 作用:粗是召回和精之间的过渡阶段,它在保证召回率的同时,通过简单的模型或规则对候选物品进行初步排序,减少了后续精的计算量。 精(Fine-grained Ranking) 起源:精的概念是在追求更高推荐准确性的过程中产生的。 在粗阶段过滤掉明显不符合用户兴趣的物品后,精阶段会对剩余的候选物品进行精细的排序和打分,以找到最符合用户兴趣的物品。

    98700编辑于 2025-04-05
  • 来自专栏悟道

    01快模板

    确定边界 选中目标 小于它的放左边,大于它的放右边 递归左右两边 /** * 快模板 */ static void quitSort(int [] arr if(i<j){ swap(arr,i,j); } } //完事之后把arr[j] 左右两边的值继续进行快

    50430发布于 2021-09-28
  • 来自专栏让技术和时代并行

    Kubernetes障指南

    发现网络插件kube-flannel一直在尝试重启,有时能够正常,有时提示 CrashLoopBackOff有时OOMKilled 3 查看kublet日志

    4.4K30发布于 2019-12-13
领券