首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Lauren的FPGA

    用FPGA实现排序(4)

    前面三篇文章我们介绍了排序的原理和具体实现方式,但都是要求序列本身是“”的。而实际情况是,给定序列本身是杂乱无章的,并非呈现“”的特征。这就要求我们先把无序序列转化为序列。 16点序列转化为序列需要3个Stage,其实Stage的个数等于log2(16)-1。每个Stage需要完成一些列的比较,其实就是实现升序和降序排列。 我们将序列的排序过程再次呈现出来如下图所示,与本文第一张图片进行对比,可以发现:从“无序”到“”是一个序列合并的过程,从“”到“单调”是一个序列分割的过程,体现了“分而治之(Divide and

    69910编辑于 2024-04-11
  • 来自专栏Lauren的FPGA

    用FPGA实现排序(1)

    典型的排序算法包括冒泡排序、选择排序、插入排序、归并排序、快速排序、希尔排序、计数排序、排序等。这其中,排序以其高度的并行性著称,非常适合于在FPGA上实现。 排序(Bitonic Sort)是数据独立(Data-independent)的排序算法,即比较顺序与数据无关,特别适合并行执行。在了解排序算法之前,我们先来看看什么是序列。 序列(Bitonic Sequence)的定义:序列是一个先单调递增后单调递减的序列,即存在两种单独特性,故为“”。 需要注意的是完全单调递增或者完全单调递减的序列也是序列,例如(0,1,4,5)和(7,5,3)均为序列。 序列的性质: (1)序列的子序列仍为序列。 ,…,a[i],b[i+1],…,b[n-1])是一个序列 Batcher定理: 若序列S为序列,即 令 那么S1和S2仍为序列,且S2中的任意一个元素不小于S1中的任意一个元素。

    1.1K10编辑于 2024-03-14
  • 来自专栏Lauren的FPGA

    用FPGA实现排序(3)

    基于排序算法的蝶形图,我们可以得到地址的变化规律。这里以长度为16的序列为例,其地址变化规律入下图所示。由于长度为16,故总共需要4个Stage。 仍以长度为16的序列为例,Stage 为0时,延迟级数为8,Stage 为1时,延迟级数为4,Stage为2时,延迟级数为2,Stage为3时延迟级数为1。 在此基础上,将4个SDF相连即可实现串行输入/串行输出的排序。下图给出了Stage 0对应的SDF结构。 下图显示了相应的仿真结果。

    43510编辑于 2024-04-11
  • 来自专栏机器学习算法与Python学习

    排序算法 | 排序(Bitonic sort)详解与Python实现

    本篇为排序算法系列第二篇,详细讲述排序算法。 01 什么是排序(Bitonic sort)? 从定义上了解下什么是序列(由非严格增序列X和非严格降序列Y所构成的任意组合多属于序列),定义如下: 一个序列 a1,a2, …,an 是序列,必须满足以下条件: (1)存在一个 ak(1 则得到的MAX和MIN序列仍然是序列,并且MAX序列中的任意一个元素不小于MIN序列中的任意一个元素。 其实,到现在还有两个问题: 怎么把普通序列变成双序列? 怎么对序列进行排序? 针对序列Z,根据Batcher定理,Z可以划分为2个序列X和Y,然后继续对X和Y进行递归划分,得到更短的序列,直到得到的子序列长度为1为止。这时的输出序列按单调递增顺序排列。 将两个相邻&单调性相反的单调序列看作一个序列, 每次将这两个单调序列merge生成一个新的序列, 然后进行排序,不断上述过程。

    3.3K30发布于 2021-04-30
  • 来自专栏AutoML(自动机器学习)

    排序Bitonic Sort,适合并行计算的排序算法

    1、序列 在了解排序算法之前,我们先来看看什么是序列。 序列是一个先单调递增后单调递减(或者先单调递减后单调递增)的序列。 3、排序 假设我们有一个序列,则我们根据Batcher定理,将该序列划分成2个序列,然后继续对每个序列递归划分,得到更短的序列,直到得到的子序列长度为1为止。 排序示意图1: [1wgenlx21s.png] 4、任意序列生成双序列 前面讲了一个序列如何排序,那么任意序列如何变成一个序列呢? 和前面sort的思路正相反, 是一个bottom up的过程——将两个相邻的,单调性相反的单调序列看作一个序列, 每次将这两个相邻的,单调性相反的单调序列merge生成一个新的序列, 然后排序( 同3、排序)。

    3.4K11发布于 2019-01-03
  • 来自专栏AutoML(自动机器学习)

    【转载】排序Bitonic Sort,适合并行计算的排序算法

    1、序列 在了解排序算法之前,我们先来看看什么是序列。 序列是一个先单调递增后单调递减(或者先单调递减后单调递增)的序列。 3、排序 假设我们有一个序列,则我们根据Batcher定理,将该序列划分成2个序列,然后继续对每个序列递归划分,得到更短的序列,直到得到的子序列长度为1为止。 排序示意图[1]: ? 4、任意序列生成双序列 前面讲了一个序列如何排序,那么任意序列如何变成一个序列呢? 同3、排序)。 所以一般来说,并行计算中常使用排序来对一些较小的数组进行排序[3]。 如果要考虑不用padding,用更复杂的处理方法,参考[4] n!=2^k的排序网络,本文略。

    3K30发布于 2019-01-07
  • 来自专栏全栈程序员必看

    百度之星资格赛——Disk Schedule(旅行商问题)

    Bentley 建议通过仅仅考虑旅程(bitonic tour)来简化问题,这样的旅程即为从最左点開始。严格地从左到右直至最右点,然后严格地从右到左直至出发点。 下图(b)显示了相同的7个点的最短路线。 在这样的情况下,多项式的算法是可能的。其实。存在确定的最优路线的O(n*n)时间的算法。 这个路线不是的。b)同样点的集合上的最短闭合路线。长度大约是25.58。 这是一个算导上的思考题15-1。 首先将给出的点排序,keywordx。又一次编号。从左至右1,2。3,…。n。 依据旅程。我们知道结点n一定与n相连,那么,假设我们求的dp[n][n-1],仅仅需将其加上d[n-1][n]就是最短闭合路线。 依据上图。

    41720编辑于 2022-07-10
  • 移动端代码优化实战:AndroidiOS端性能优,解决卡顿、闪退、耗电问题

    今天我们就来分享Android和iOS端的代码优化实战攻略,针对性解决卡顿、闪退、耗电三大核心问题,让你的APP体验翻倍。 三、端通用优化技巧:提升APP整体体验除了两端各自的优化技巧,还有一些通用的优化方案,适用于Android和iOS端,能够进一步提升APP的性能和用户体验:1.图片优化:统一图片格式(如Android 四、实战案例总结我们以一个电商APP为例,对比端优化前后的核心指标:优化维度Android端(优化前)Android端(优化后)iOS端(优化前)iOS端(优化后)帧率30-40fps(卡顿)稳定60fps -45fps(卡顿)稳定60fps(无卡顿)闪退率1.2%0.1%1.5%0.05%1小时耗电20%5%18%4%启动时间3.5秒1.2秒3.0秒1.0秒包体积80MB45MB75MB40MB优化后,端 掌握Android和iOS端的性能优化技巧,针对性解决卡顿、闪退、耗电三大核心问题,才能打造出体验优秀的APP,提升用户留存率和满意度。

    32810编辑于 2026-04-16
  • 让work Buddy 成为Hermes能自动成长自动进化的AI

    一、GEPA—核心引擎关键突破:理解"为什么失败",而非盲目重试传统优化GEPA看到失败记录"失败率65%"读取完整执行追踪,分析决策链路应对方式盲目参重试找到根因,精准修改(如消除工具描述歧义)优化目标单一指标帕累托多目标 (准确率×成本×延迟)效率惊人:仅需3个示例启动,无需GPU,每次优化成本$2-10。 原因说明反射性分析读懂失败根因,不盲目参遗传进化循环变异→评估→选择→迭代,持续优化帕累托平衡多目标不内卷,找全局最优能力沉淀经验固化为Skill,从一次性→可持续安全可控严格护栏+人工审批,进化不失控极低成本无需 GPU,$2-10/次,迭代无心理负担一句话:Hermes能进化,是因为它把"失败经验"当燃料——读懂失败原因→精准变异→多目标筛选→人工把关→沉淀为能力。

    13610编辑于 2026-05-21
  • 路径开发:Kernel 直与自定义算子工程的场景适配与效能对比》

    一、核心概念与技术特性辨析 1.1 Kernel 直工程 定义:跳过框架高阶 API 封装,直接通过硬件原生接口(如 NPU 的 Kernel Launch、CPU 的 ICPU_RUN_KF 宏)调用计算核心的开发模式 案例参考:DRAFTS 项目先通过 Kernel 直验证去色散算子性能,再封装为自定义算子集成到完整模型管线。 五、总结 Kernel 直与自定义算子工程并非对立关系,而是互补的路径开发模式:前者聚焦 “快速验证”,以开发效率换时间,适合原型阶段;后者聚焦 “生产落地”,以工程化换稳定性与性能上限,适合部署阶段 实际开发中,建议采用 “Kernel 直验证原型 + 自定义算子工程化落地” 的组合策略,既保证迭代速度,又能满足规模化应用需求。 随着 AI 硬件架构的迭代(如 NPU 专用计算单元、异构存储),自定义算子工程的自动化优化能力(如自动 Tiling、混合精度)将成为效能提升的核心驱动力,而 Kernel 直仍将作为底层性能优的关键手段

    25510编辑于 2025-12-24
  • 来自专栏李家杂货铺zi

    Vivado综合属性之ASYNC_REG

    ASYNC_REG用于单bit信号采用(或多)触发器实现异步跨时钟域的场合,此时所有用于同步的触发器都要标记ASYNC_REG。 Synchronizer(xpm_cdc_single),见下方代码: xpm_cdc_single #( .DEST_SYNC_FF(4), // DECIMAL; range: 2- input dest_clk, output dest_out ); xpm_cdc_single #( .DEST_SYNC_FF(2), // DECIMAL; range: 2-

    1.3K21编辑于 2023-03-21
  • 腾讯云直播能力升级:健康报告+监播报告AI解读,开启直播智能运维新时代

    01创新突破,健康报告重新定义直播流质量管控直播流分析打分系统,让问题诊断一目了然作为同类 PaaS 产品中针对直播流的 “智能体检中心”,健康报告从推流、播放、录制、截图、转码、回、拉流转推 7 大核心功能构建评估体系 02AI赋能监播报告,复杂数据秒级解读,决策效率快速提升Agent 模型驱动,让监播报告“会说话”针对传统监播报告数据量大、解读门槛高的痛点,腾讯云直播全新上线监播报告 AI 解读功能,依托云直播团队深度优的 03不止运维,功能配合解锁多场景应用价值教育直播:守护教学体验的“质量管家”在线课堂对直播稳定性要求严苛 —— 延迟超 3 秒会影响师生互动,低帧率则导致板书模糊。 实时监播功能还可以通过智能识别精准拦截线上教学、互动课程中的违规内容,保障学生尤其是未成年人的身心健康。 腾讯云直播始终致力于以技术创新驱动行业升级,本次能力上线,标志着直播运维从 “经验驱动” 正式迈入 “数据 + AI 双轮驱动” 时代。

    30510编辑于 2025-07-16
  • 来自专栏音视频咖

    腾讯云直播能力升级:健康报告+监播报告AI解读,开启直播智能运维新时代

    01、创新突破,健康报告重新定义直播流质量管控 直播流分析打分系统,让问题诊断一目了然 作为同类 PaaS 产品中针对直播流的 “智能体检中心”,健康报告从推流、播放、录制、截图、转码、回、拉流转推 赋能监播报告,复杂数据秒级解读,决策效率快速提升 Agent 模型驱动,让监播报告“会说话” 针对传统监播报告数据量大、解读门槛高的痛点,腾讯云直播全新上线监播报告 AI 解读功能,依托云直播团队深度优的 03、不止运维,功能配合解锁多场景应用价值 教育直播:守护教学体验的“质量管家” 在线课堂对直播稳定性要求严苛 —— 延迟超 3 秒会影响师生互动,低帧率则导致板书模糊。 实时监播功能还可以通过智能识别精准拦截线上教学、互动课程中的违规内容,保障学生尤其是未成年人的身心健康。 腾讯云直播始终致力于以技术创新驱动行业升级,本次能力上线,标志着直播运维从 “经验驱动” 正式迈入 “数据 + AI 双轮驱动” 时代。

    59700编辑于 2025-07-12
  • 大规模深度学习中的差分隐私技术突破

    自动剪裁技术在论文《自动剪裁:使差分隐私深度学习更简单、更强大》中,我们提出了一种自动方法,将梯度剪裁过程的优效率提升了一个数量级(约5-10倍)。 传统梯度剪裁需要进行昂贵的消融实验来选择剪裁阈值,而我们的方法采用归一化技术,完全消除了剪裁阈值的优需求。技术原理深度学习过程包含一个可调超参数——学习率,它决定模型权重在更新时的变化程度。 现有DP训练方法需要同时调优剪裁阈值和学习率,若评估K个不同剪裁阈值,会使模型超参数优阶段成本增加K倍。 :相比DP-LoRA等方法,不需要存储和访问昂贵的激活张量实证结果在GPT-2-large、ResNet 152等大型基础模型上,DP-BiTFiT在保持最先进精度的同时,实现了4-10倍的速度提升和2- 自动剪裁解决了超参数优的瓶颈,而DP-BiTFiT则通过参数高效微调为大规模DP模型的实际部署铺平了道路。

    36100编辑于 2025-09-23
  • 来自专栏全栈程序员必看

    Qt的缓冲技术(double buffering)

    Qt的缓冲技术(double buffering)是Qt绘画机制的一部分,是一种在Qt4中被全面采用的技术。 那么gemfield本文开始处提到的缓冲技术是怎么做到消除屏幕闪烁的呢? =(this_height/2.0-10)-((this_height/2-20)/100.0*gemfield_percent); painter.drawEllipse(this_width/2- 而且随着半导体技术的进步,缓冲所能发挥出的功能相对减少。 另外一个不容忽视的问题是,使用缓冲技术会增加系统的负载。因为相比普通的绘制,它多出了一些工作。 比如在SYSZUXpad上运行 GemfieldFuwaArrow程序时,缓冲时cpu的利用率是50%,而没有采用缓冲时,cpu的利用率是37%。

    3K20编辑于 2022-09-03
  • 来自专栏携程技术

    1024,携程程序猿的一天

    携程,一直是依靠服务+技术驱动公司,或者说,技术与服务,成为了携程勇往直前的引擎,而你们,正是组成这个强大引擎的动力所在! 音乐会上,还第一次见到了集团CTO熊老板,熊老板说: 要让对技术感兴趣的同学,对技术沉迷的大咖们,在这里能够无所顾虑地,全身心投入地奋斗。 (话说,这是要涨工资的节奏么?) ? 13:30咖啡 听完音乐,吃完饭,拿着上午秒杀到的“The Geek Coffee”套装券,去楼下咖啡店兑换了一杯咖啡,据说是技术特款。 ?

    80510发布于 2019-04-22
  • 来自专栏用户7095785的专栏

    python入门到放弃(二)-流程控制语句

    就是在程序里面设定一些条件判断语句,满足哪条,就执行哪条 1.if 单分支 if 条件: 满足条件后执行的代码 #例子 if 5 > 4 : print(666) #结果为 666 分支 1:循环元组 name = '1','2', '3','4' for shuzi in name: print(shuzi) #执行结果 1 2 3 4 #例二:使用range()函数,迭代2-

    56330发布于 2020-03-20
  • 来自专栏IT技术圈

    浙大版《C语言程序设计(第3版)》题目集 1~10

    2、练习2-3 输出倒三角图案 3、练习2-4 温度转换 4、练习2-6 计算物体自由下落的距离 5、练习2-8 计算摄氏温度 6、练习2-9 整数四则运算 7、练习2-10 计算分段函数[1] 8、练习 printf("%d * %d = %d\n",m,n,m*n); printf("%d / %d = %d\n",m,n,m/n); } return 0; } 7、练习2- 题目保证计算结果不超过精度范围。

    81510编辑于 2022-08-22
  • 来自专栏多模态睡眠与康复

    音乐治疗:神经科学视角下的身心疗愈

    今天就给大家介绍一下这个新兴跨学科专业~音乐治疗的历史自古以来,音乐就被认为具有治疗身心的力量。在古希腊和古埃及,人们相信音乐能够治愈疾病和安抚心灵。 音乐治疗是一门集音乐、医学、心理学为一体的新兴的交叉学科,主要针对在身心方面有需要进行治疗的个案以及需要治疗的部分,进行有计划、有目的的疗程,是一种运用一切音乐活动的各种形式(包括演唱、演奏、节奏、律动等 这解释了为什么长期疼痛、抑郁或身心俱疲的人会在音乐中感受到重生的力量。如今,音乐治疗已成为一种系统化的治疗方法,广泛应用于阿尔茨海默病、抑郁、焦虑、失眠等多种疾病的管理中。 这种半球激活促进了神经可塑性,有助于脑卒中患者的康复。研究表明,音乐可以作为一种靶向疗法,促进大脑的神经再生和修复,从而减轻脑卒中后遗症。 总之,神经科学的研究揭示了音乐治疗在身心疗愈中的重要作用。通过激活大脑奖赏系统、调节自主神经系统、干预疼痛感受以及促进神经康复,音乐不仅能够改善患者的情绪,还能带来实实在在的生理变化。

    18810编辑于 2026-05-25
  • 来自专栏怪兽怪秀

    归纳一下国内常见的螺纹种类

    表示法如 W1/2-10。(1/2:外径;10:每寸牙数;W 代号)。 ###6.圆螺纹 > 为德国 DIN 所定之标准螺纹。适用于灯泡、橡皮管之连接。表示符号为“Rd”。 传动效率较方螺纹稍小,但磨损后可用螺帽 整。公制之螺纹角为 30 度、英制之螺纹角为 29 度。一般用于车床 之导螺杆。表示符号为“Tr”。

    1.8K20编辑于 2022-09-20
领券