首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏EdisonTalk

    Elastic学习之旅 (10) Logstash数据采集

    Logstash是一款优秀的开源ETL工具/数据搜集处理引擎,可以对采集到的数据做一系列的加工和处理,目前已支持200+插件具有比较成熟的生态。 下图展示了Logstash的上下游主流生态: Logstash不仅可以从日志中获取数据,才可以从Kafka 甚至是 数据库中采集数据。 采集到数据之后,可以转发给ElasticSearch(最常见的场景),也可以转发给MongoDB等。 Logstash的核心概念 第一个概念:Logstash Pipeline Logstash的Pipeline包含了 input(采集) - filter(转换) - output(输出) 三个阶段的处理流程 " index => "movies" document_id => "%{id}" } stdout {} } 小结 本篇,我们了解了ElasticSearch中的数据采集神器

    45710编辑于 2024-04-16
  • 来自专栏红眼睛微型红外成像仪

    VS10X混合信号采集

    VS10X振弦采发仪是VS101单通道采集仪的升级替代,在保持原有尺寸和功能的基础上,从对振弦信号的单通道采发升级到可以实现最多4通道的振弦信号采集发送。 设备绝大部分时间处于休眠关机状态,仅在预定的时间间隔时自动上电并检测时间参数,判断是否达到数据存储时间或者达到数据发送时间,若未达到预定的时间点则立即再次进入休眠关机状态,若达到预定的时间,则继续进行传感器数据采集 D:是否有模拟量采集通道,V 表示电压信号,I 表示电流信号。 E:通讯接口类型(2G、4G、NBIOT、WIFI、RF、RS485、RS232)。 平均功耗:待机 5uA,无太阳能充电时 DC12V@10AH 电池可使用不低于半个月(每小时采发一次)。应用领域地质灾害监测,土木工程监测,自动化监测。 全功能采集仪广泛适用于水电﹑铁路﹑公路﹑矿山﹑国防及建筑工程安全监测领域传感器测点布设较为分散,需要实时数据采集的解决方案。无线对比传统振弦采集仪的优势在于,减少一半以上监测成本。

    51320编辑于 2022-11-21
  • 来自专栏大数据服务

    推荐10个最好用的数据采集工具

    10款最好用的数据采集工具,免费采集工具、网站网页采集工具、各行业采集工具,这是目前比较好的一些免费数据采集工具,希望可以帮助到大家。 2、火车头采集器 火车采集器是目前使用人数较多的互联网数据采集软件。它凭借灵活的配置与强大的性能领先国内同类产品,并赢得众多用户的一致认可。使用火车头采集器几乎可以采集所有网页。 4、大飞采集器 大飞采集器可采集99%网页,他的速度是普通采集器的7倍,和复制黏贴是一样的准确,它最大的特点就是网页采集的代名词因为专注所以单一。 有特殊情况需要特殊处理才能采集的,也支持配置脚本。 9、阿里数据采集 阿里数据采集大平台运营稳定不奔溃,可以实现实时查询,软件开发数据采集他们都可以做,除了贵没有毛病哈。 10、后羿采集器 后羿采集器操作是非常简单的,只有跟着流程来很容易下手,还可以支持多种形式导出。

    9.1K61发布于 2021-07-15
  • 来自专栏腾讯数据中心

    10亿红包背后的数据中心

    华东片区,相对于自建数据中心,我们的工作依赖于与运营商兄弟的支持和配合。春节期间,重点保障沟通会就达数十次。此外,高危基础设施巡检、设施应急演习、IDC基础设施重大高危风险优化变更的次数也不胜枚举。 我拒绝,是因为,其实我怕,服务器宕机、网络拥堵导致红包抢不过别人……后来我知道腾讯数据中心的小伙伴为了春节红包项目苦心孤诣,废寝忘食,我就试着用微信、qq抢红包了! 轰轰烈烈的春节微信红包保障项目顺利结束,数据中心的春节值守兄弟们也该换班回家过年了,在此给全国人民拜个晚年,祝大家新年快乐,羊年要咩有咩! 欢迎关注公共账号“腾讯数据中心”,我们为您提供最新行业动态、腾讯数据中心ABC分享,还有神秘活动组织噢,敬请期待! 版权声明:本文为腾讯数据中心原创,版权均属“深圳市腾讯计算机系统有限公司”所有,未经官方授权,不得使用。

    1.1K50发布于 2018-03-16
  • Python 多线程爬虫实现 10 倍速采集

    100 个网页,每个网页的网络请求耗时 1 秒,解析 + 存储耗时 0.1 秒,单线程总耗时约 100×(1+0.1)=110 秒;而如果用多线程并行处理,网络等待时间可以被 “填平”,总耗时可能仅需 10 秒左右,效率提升近 10 倍。 三、实战:多线程爬虫实现 10 倍速采集接下来我们通过一个完整案例,实现多线程爬虫,并对比单线程与多线程的效率差异。 finally: url_queue.task_done() # 标记任务完成# 多线程爬取主函数def multi_thread_crawl(urls, thread_num=10 线程)10011.20.1129.69从结果可以看到:10 线程的爬虫耗时仅为单线程的 1/10 左右,实现了 “10 倍速采集” 的目标。

    14710编辑于 2026-02-26
  • 来自专栏风吹屁屁凉的分享

    maccmsV10采集图片远程FTP保存设置方法

    本文记录了maccms程序采集数据时,使图片上传到远程FTP图床的方法, 设置简单,需要提前配置好自己的FTP服务器,并记录好FTP服务器的信息, 如FTP服务器地址,用户名,密码,访问路径等等,不多啰嗦 设置maccms采集数据中的图片,保存到自己的FTP服务器,除了事先配置好服务器,还要在maccms程序后台进行上图所示操作, 首先进入系统设置,选择附件参数设置,在右侧的保存方式里面,选择FTP存储, 保存配置后,建议清除一下缓存,这样,采集的时候,就能够看到图片自动上传到FTP服务器上了! 仅做记录,希望这方法,能够对有同样需要的人有帮助!

    3.5K20发布于 2021-07-14
  • 来自专栏风吹屁屁凉的分享

    maccmsV10采集图片本地化的设置方法

    最近,在研究用maccms程序来采集,反反复复研究了很多天, 今天突然想起来把数据库和图片都设置成远程,以节省主程序所在服务器的空间和流量占用, 重新安装了maccms程序以后,设置好了采集规则,然后开始采集 在检查数据的时候,发现图片并没有本地化,仍然调用采集网站的图片地址! 经过检查发现需要做下图的设置,图片才能正常的本地化, ? 在后台里面,点击系统,选择采集参数配置,在右侧自动同步图片出,选择开启,然后保存确认! 这样maccms开始采集的时候,图片就会从源站,下载回到本地了! 在此仅做记录,希望遇到同样问题的朋友,看到这张图片,可以了解需要如何设置,才能使maccms采集数据的图片本地化! 下一篇文章,记录如何开启采集图片自动远程到图床服务器,请大家关注!

    3.6K20发布于 2021-07-14
  • 来自专栏千里行走

    docker-10:本地docker部署apollo配置中心

    git clone https://github.com/apolloconfig/apollo.git

    1.5K20编辑于 2022-04-06
  • 来自专栏工程监测

    VM系列振弦采集模块 快速测量( 10Hz)

    河北稳控科技VM系列振弦采集模块 快速测量( 10Hz)图片快速测量是上一节“ 测量时长与优化” 的一种具体应用, 通过时间参数合理设置,可以实现快速频率激励、 读取,最高可达每秒 10 次或更高。

    52730编辑于 2022-12-12
  • 来自专栏工程监测

    VS10X混合信号采集仪振弦传感器数据采集工程安全监测应用

    VS10X混合信号采发仪1.png VS10X混合信号采集仪,数据从单独的振弦信号,可以扩展到实现模拟信号的采发。网络在支持原有2G和GPRS的基础上,增加了可支持4G和射频网络。 VS10X振弦采发仪是VS101单通道采集仪的升级替代产品,在保持原有尺寸和功能的基础上,从对振弦信号的单通道采发升级到可以实现最多4通道的振弦信号采集发送。 VS10X混合信号采发仪2.jpg 选型多种 A:内嵌核心测量模块数量(1~4 个)。 B:两位数字表示的振弦通道数量(02、04、08、16)。 C:T 表示带有温度测量通道。 D:是否有模拟量采集通道,V 表示电压信号,I 表示电流信号。 E:通讯接口类型(2G、4G、NBIOT、WIFI、RF、RS485、RS232)。 平均功耗:待机 5uA,无太阳能充电时 DC12V@10AH 电池可使用不低于半个月(每小时采发一次)。 应用领域 地质灾害监测,土木工程监测,自动化监测。 应用领域.jpeg

    52160编辑于 2022-05-17
  • 来自专栏FreeBuf

    中心化应用安全威胁Top10榜单

    NCC Group 发起了一个名为 2018 年去中心化应用安全 Top10(Decentralized Application Security Project)的项目。 据悉,该项目会与类似于 OWASP 的方式发布去中心化应用安全领域中,每年的十大安全威胁报。与 OWASP 开放合作透明的运作理念相似,该项目也是以集成合作的方式披露智能合约中存在的安全漏洞。 本文是第一版的 DASP Top10 2018 内容,详细描述包括递归调用漏洞、权限控制漏洞、算数问题、返回值问题、拒绝服务、伪随机在内的智能合约威胁。 因翻译时间所限,难免出现疏漏,在 FreeBuf 上分享仅为抛砖引玉之用,望对去中心化应用感兴趣的同学在此多指正、多交流。 ? 在去中心化应用、以太坊的世界中,拒绝服务问题往往会是致命的:尽管其他类型的应用程序最终总是可以恢复服务的,但智能合约可能会因一次拒绝服务攻击而永久下线。

    53320发布于 2018-07-30
  • 企业级零侵入网络可观测方案:旁路采集技术赋能数据中心与智算中心

    基于流量旁路采集技术构建的网络应用性能监测系统,以“零侵入、全流量、智能化”为核心优势,为云环境、数据中心、智算中心提供全链路可观测能力,成为企业级网络性能管理的优选方案。 :单机支持万兆/25G/40G/100G接口,多节点分布式采集模式可支持超T级总带宽,满足超大型数据中心与智算中心的流量采集需求;l 国产化环境兼容:全面支持麒麟操作系统、飞腾/鲲鹏芯片,符合政企行业自主可控与安全合规要求 全场景适配:覆盖数据中心、智算中心、金融交易网络、能源行业网络等多场景,支持通用协议与行业专属协议;5. 高扩展性架构:支持单机部署、多节点分布式采集、云/混合云部署,随业务规模灵活扩展;6. A:单机支持万兆 / 25G/40G/100G 接口,多节点分布式采集模式下,可支持超 T 级总带宽采集,满足超大型智算中心需求。3. Q:能否解析加密的 HTTPS 流量内容? A:中小规模数据中心(单采集点)部署周期约 1-2 周;大型分布式采集场景约 3-4 周,具体视采集点数量与网络复杂度调整。

    24010编辑于 2025-12-19
  • 来自专栏携程技术

    2015携程技术中心年度盘点 TOP10

    1月31日携程技术中心年会上,CTO叶亚明先生(Eric)与大家一同见证了年度Top10的诞生。 No. 10 互联网办公环境 ? > 应急事件处理中携程技术工程师的主人翁精神 携程技术中心秉承一贯的开放姿态,欢迎互联网人多交流,同时也为沪上互联网公司输出了大量的技术精英。 据不完全统计,有10余位携程技术同事已成为各类互联网公司的CTO。 No. 7 网站稳定性升级 ? 一个真正强大的团队,不仅仅是看他在顺境时的表现,更要看他在逆境中的快速反弹。 No.3 10X 技术 ? 走向国际 > Qcon旧金山大会:作为6家中国公司之一,在中国技术开放日上进行技术分享 > 技术中心硅谷推介会 > 对话Google、Booking、Airbnb、Uber工程师

    1.1K70发布于 2018-03-16
  • 来自专栏msray

    全网搜索引擎采集(msray)|URL采集|关键词采集|域名采集

    搜索引擎全网采集Msray-plus,是企业级综合性爬虫/采集软件。支持亿级数据存储、导入、重复判断等。无需使用复杂的命令,提供本地WEB管理后台对软件进行相关操作,功能强大且简单易上手! 同时支持存储域名、根网址、网址(url)、IP、IP所属国家、标题、描述、访问状态等多种数据,主要运用于全网域名/网址/采集、行业市场研究分析、指定类型网站采集与分析、网络推广分析以及为各种大数据分析等提供数据支撑 ----1:采集注意事项1:搜索引擎是根据关键词采集的,采集之前要准备好关键词(关键词可以为txt文档,一行一个)---- 2:配置流程1:上传关键词文件2:选择适合自己需求的过滤规则(可保持默认)3: 选择需要使用到的搜索引擎4:过滤方案的使用,可以保持默认,也可以自定义过滤规则,可根据域名,ip地址,国家信息进行过滤图片图片----3:对采集的数据进行 导出和数据分析软件可进行全网公开数据挖掘,大规模采集互联网公开数据 ,精准挖取采集内容。

    2.3K20编辑于 2022-10-17
  • 来自专栏msray

    全网URL采集工具,支持关键词采集,域名采集,联系人采集

    **今天介绍的这款全网URL采集工具可以运用于全网域名/网址/IP信息检索、指定关键词批量数据采集、SEO、网络推广分析、内容源收集,以及为各种大数据分析等提供数据支撑。 访问状态等..进行自定义过滤图片3: 灵活的推送方案软件不仅支持将结果保存在本地,而且还支持远程的数据推送,可以和自己内部的业务系统相结合,便于数据的再次利用分析,核心功能1: 关键词采集根据提供的关键词采集全网的数据 ,重复判断:可以选择根据域名或者网址进行重复判断,采集字段包括域名,网址,IP地址,IP所属国家,标题,描述,访问状态等。 图片2: URL采集根据提供的URL数据批量采集全网被收录的数据,重复判断:可以选择根据域名或者网址进行重复判断,支持线程数自定义,可根据自己机器配置调整最优采集字段包括域名,网址,IP地址,IP **创建爬虫任务**图片图片3: 联系任务可根据提供的域名地址采集被收录的联系方式等信息包含手机。

    3.5K11编辑于 2022-10-17
  • 来自专栏python开发教程

    python采集豆瓣网top250前10和后10电影短评并进行语义分析

    今天收到一个订单需求,需要爬取豆瓣电影网top250中前10部和后10部的影评并对其进行语义分析比较这20部电影的质量,所以我们计划每部电影爬取100条短评并对评论进行语义分析,最后对其进行简单的数据可视化来比较其电影质量 一.爬取电影评论 我们还是之前介绍的爬虫通用流程先来采集数据。1.分析目标网址;2.发送请求获取网址响应内容;3.解析内容;4.保存响应内容。 0.8656266024493757三.使用matlibplot对数据进行简单的可视化import matplotlib.pyplot as plt x_data = [1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20

    83030编辑于 2022-08-26
  • 来自专栏用户6632349的专栏

    采集软件-免费采集软件下载

    我们可以用这款采集软件实现自动采集伪原创发布以及主动推送给搜索引擎,操作简单不需要学习更多专业的技术,只需简单几步就可以轻松采集内容数据,用户只需在采集软件上进行简单的设置,采集软件工具根据用户设置的关键词精准的采集文章 采集来的文章可选择本地化保存,亦可选择自动伪原创后发布,提供了方便快捷的内容收集以及快速打造内容伪原创。 相对于其它采集软件这款采集软件基本不存在什么规则,更不用花费大量时间去学习正则表达或html标签,一分钟即可上手使用只需要输入关键词即可实现采集采集软件同时还配备了关键词采集功能)。全程自动挂机! 这款采集软件还配置了很多SEO功能,通过软件采集伪原创发布的同时还能提升很多SEO方面的优化。 最主要的是避免出现死链现象 在网站设置404页面之后,网站一旦出现由于URL更改或者替换所导致的死链网站,搜索引擎蜘蛛爬行这类网址得到“404”状态回应时,即知道该URL已经失效,便不再索引该网页,并向数据中心反馈将该

    3.1K40编辑于 2022-03-03
  • 来自专栏芯智讯

    投资10亿欧元,苹果扩建德国芯片设计中心

    3月3日消息,据9to5mac报道,苹果公司于当地时间3月2日宣布,未来6 年将于德国加码投资10 亿欧元,做为德国慕尼黑芯片设计中心扩建计划的一环。 这次追加的投资金额,是以苹果承诺从2021 年起投资超过10 亿欧元的计划为基础,苹果当时就以慕尼黑做为欧洲芯片设计中心的总部,该处也成为苹果在欧洲最大的研发工程中心。 苹果之所以再度选择德国,其一原因在于芯片设计中心的位置邻近慕尼黑工业大学,苹果硬件和软件的技术团队正与慕尼黑大学合作多项研究专案,包括5G 方面的研究。 苹果自1981 年设立德国研发公司以来,当地团队从最初10 名员工一路成长至超过4,500 人,尤其在过去3 年增加超过1,600 人。

    23510编辑于 2023-03-24
  • 来自专栏全栈程序员必看

    API数据采集_数据采集接口

    大家好,又见面了,我是你们的朋友全栈君。 1 API使用简介 实例: 使用音乐排行榜详情API如下:https://api.apiopen.top/musicRankingsDetails?type=

    3.1K50编辑于 2022-09-28
  • 来自专栏物联网wtblnet.com

    数据采集网关|工业数据采集网关

    数据采集网关|工业数据采集网关 随着数据量的不断增速,数据价值也逐步被许多公司所关注,尤其是偏重于业务型的企业,许多数据的发生,在未被挖掘整合的进程中通常被看作是一堆无效且占用资源的;但一旦被发掘,数据的价值将无可估计 数据采集网关,物通博联数据采集网关相关产品: 1477559252.jpg 1480315233.jpg 一、业务流程整理 在业务流程整理的进程中,咱们先预设个场景,如: 当公司运营人员提出一个订单转化率的需求

    2.4K40发布于 2019-12-03
领券