首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏素质云笔记

    采集器︱爬取外网数据(twitter、facebook)

    采集器是内嵌的浏览器,是火狐浏览器,不能进行修改。同时也不同通过修改内嵌V**来获得外网的许可。 若你的某浏览器通过插件可以上外网,能不能用调用,然后上外网呢? 不可以。 1、云采集+外网(服务器) 如果用是爬取外网内容,并且实现云采集,只能购买其海外版一年期,2999元/年,试用期3天; 该版本服务器就在海外,只要设置得了流程,可以自由爬取国外80%

    10.9K32发布于 2019-05-27
  • 来自专栏素质云笔记

    采集器︱加载更多、再显示20条图文教程(Xpatth、Ajax)

    由于代码布置采集器比较麻烦,又很早知道采集器的强大,所以把一些常规的采集内容贴成图文教程,供以后使用。 采集器官方视频教程见:http://www.bazhuayu.com/tutorial/zxs.aspx?

    2.1K50发布于 2019-05-28
  • 来自专栏大数据采集

    行业融媒体平台建设与

    插入一个小广告: 鱼具有强大的数据采集能力,能够采集文本、图片、视频等多种形式的数据,具有数据采集、数据清洗,数据分类等多重功能。 从2013年成立至今,帮助过新闻传媒、高校等多个行业搭建了融媒体平台,帮助客户解决了信息采集到汇聚中的各个难点,在融媒体平台建设领域积累了很多宝贵的经验。

    1K20发布于 2021-09-07
  • 来自专栏大数据采集

    Mac客户端安装方法

    2、下载安装 ① 访问  https://www.bazhuayu.com/download/mac,点击【Beta 版下载】,下载采集器安装程序(.dmg)  ② 双击【.dmg】文件 ③ 等待检查完成 ④ 将【采集器.app】拖入【Applications】中,完成安装 ⑤ 在【应用程序】中找到【采集器.app】,并双击启动 ⑥ 在弹出框中选择【打开】 ⑦ 启动采集器后 点击免费注册) 二、安装过Mac客户端8.1.12版本,需先清除缓存: 打开Mac客户端,在【关于我们】中查看版本号。 您可能遇到以下问题: 1、启动时,提示【无法打开采集器,因为无法验证开发者】/ 【打不开采集器,因为它来自身份不明的开发者】 解决方法 :进入【系统偏好设置】,打开【安全性与隐私】 2、启动时,提示【打不开采集器,因为Apple无法检查其是否包含恶意软件】 解决方法:同样的,我们需要进入【系统偏好设置】,打开【安全性与隐私】,选择【通用】,点击【仍要打开】即可。

    2.7K31发布于 2021-09-27
  • 来自专栏大数据采集

    VoC客户之声的价值与的实践

    依托强大的采集能力基础,已经帮助过汽车、家电、3C、美妆等多个行业的客户收集VoC信息,助力企业增长,在VoC领域具有丰富的理论基础和实操经验。

    1.8K20发布于 2021-10-13
  • 来自专栏智能相对论

    ”助力“智能驾驶第一城”加速跑

    如今在“”上进行“云测”,彭之川的感受是虽然测试或者工作流程没有太大变化,依然是“写程序-仿真测试-路测验证-写程序”的循环,但由于“”能够提供多个模块或者场景的关联测试环境,每次测试能够解决的问题大大提升 “就我的个人工作而言,变化不大,只不过换了一个测试工具而已,但就自动驾驶技术的整体提升上,‘’的推动作用还是非常明显的。” 一个非常明显的例证是,彭之川之前用自研的测试工具只能进行功能验证,如今在“”上还能结合测试车的技术参数进行关联的动力验证了。 在彭之川看来,包括“”在内的模拟仿真平台对自动驾驶另外一个重要价值在于提供了测试的标准化。 、5G、V2X等技术能力,保持“”的持续进化。

    76110发布于 2020-03-26
  • 来自专栏Savalone's Blog

    采集软件正则表达式使用方法

    正则表达式(Regular Expression)描述了一种字符串匹配模式,可以用来检查一个字符串是否含有某种子串、将匹配子串做替换或者将匹配的子串提取出来等。

    2.5K20编辑于 2022-06-01
  • 来自专栏域名资讯

    获得A轮投资,其官网域名采用bazhuayu.com

    互联网时代,许多企业需要海量的数据信息,有这么一个平台专注于采集数据,它就是大数据。近日,宣布完成A轮融资,由中信资本领投,其官网采用品牌三拼域名。 据说,“采集器”是刘宝强的太太命名的,意在能够像一样用条触腕灵活地抓取数据。为了配合品牌,其官网采用了三拼域名bazhuayu.com,定位清晰,能有效地强化品牌形象。    虽然在域名上做得不够,但是的数据业务那是杠杠的,已在政府、税务、高校、征信、电商等多个场景开展大数据解决方案深度合作,海外版Octoparse上线一年内就迅速建立口碑和市场,可见其实力不俗。 身为大数据采集行业的排头兵,曾多次获得融资:   2014年4月,拿到了挚金资本创始合伙人杨溢的种子轮投资;   2015年1月,获得了拓尔思500万人民币的天使轮投资;   2016 年6月,拿到了知名投资机构“协同创新基金”的Pre-A投资。   

    1.8K90发布于 2018-01-26
  • 来自专栏州的先生

    这些数据采集器都可以帮你轻松爬数据!

    采集器 下面再来看看另一个选手——。 ? 首页,界面就很互联网。而且主页还提供了很多模板,相当于直接使用这些模板就可以采集数据了。 之前一直以为可以搞定淘宝的反爬验证,看来是我想多了。 ? 而且免费用户还不能使用,罢了罢了。 换腾讯网来试试,输入网址后,打开的网页,然后自动下拉网页: ? 最终识别出了列表数据(但是不排除是后台服务器以模板的形式已经预置了腾讯网的采集和识别规则): ? 我们接着点击「生成采集设置」: ? 可以进入到下一步的操作中,在这里可以看到的采集流程: ? 我们直接「保存并开始采集」: ? 最后 火车头采集器采集器分别用州的先生博客和腾讯网进行了测试。下面简单进行一下评价吧: ? 火车头虽然UI界面不友好,配置稍显繁复,但是对州的先生来说,其更加符合个人的使用习惯。

    1.8K31发布于 2021-08-13
  • 来自专栏图像处理与模式识别研究所

    WPS的功能,方便的对文档段落进行调整。

    1、点击[显示/隐藏段落布局按钮 ] 2、点击[段落布局] 3、点击[文本]

    64210编辑于 2022-05-28
  • 来自专栏八爪鱼大数据

    新手速成!如何利用ChatGPT撰写正则表达式辅助数据采集?

    即便是采集熟手,想要通过正则匹配准确拿到想要的信息,有时也要经过多次尝试,更不用说刚刚接触采集器的小白了。正则表达式是什么?正则表达式是一种字符串匹配的模式,用于描述一类字符串的集合。 撰写正则表达式规则对新手来说确实会有较高的门槛,虽然也提供了正则工具辅助编写,但有时也需要多次尝试才能拿到最准确的信息。但是!!现在有了ChatGPT,一切问题迎刃而解! 本文小将以豆瓣读书为例,讲解如何利用ChatGPT辅助实现数据采集。 相比简单的【替换】,【正则表达式替换】更为强大当然,这个只是ChatGPT在采集器中的一个场景,小也正在探索把ChatGPT功能集成进采集器来辅助大家做好正则表达式,xpath等功能。

    68210编辑于 2023-11-30
  • 来自专栏大大的小数据

    数据采集及正则表达式匹配格式数据2020.10.12

    1、复制要采集的网址,开始采集 2、添加要采集的字段 3、格式化数据 4、选择正则表达式匹配 5、方便的生成正则表达式 6、开始采集

    94920编辑于 2022-09-21
  • 来自专栏DT数据侠

    爬虫神器“”获A轮融资;滴滴启动 AI Labs | DT数读

    2 大数据 获得A轮融资,将用人工智能升级爬虫神器 据36氪报道,近日,数据云采集服务平台大数据完成A 轮融资,投资方为中信资本,融资额未透露。资金主要用于大数据与人工智能领域。 据了解,此前曾获得创业板大数据上市公司拓尔思500 万元天使轮及协同创新基金Pre-A轮融资。 成立于2012年,2年后正式上线其数据采集平台采集器,从数据源入手为企业解决数据获取的难题。 采集器为免费工具,具备数据采集、整合、清洗、分析及挖掘等功能,可将网页非结构化数据转换成结构化数据,以数据库或 EXCEL 等多种形式进行存储。 DT君说:工具,很多人都用过,当然也包括了DT君。对于数据分析的初学者而言,正是由于有了这类工具,才让爬取大数据这件以往颇有技术含量的事变得简单。

    98100发布于 2018-08-08
  • 来自专栏极客猴

    不懂代码也能爬取数据?试试这几个工具

    2.火车头采集器 ? 火车头是爬虫界的老品牌了,是目前使用人数最多的互联网数据抓取、处理、分析,挖掘软件。它的优势是采集不限网页,不限内容,同时还是分布式采集,效率会高一些。 官网地址:http://www.locoy.com/ 3.采集器 ? 采集器是一款非常适合新手的采集器。它具有简单易用的特点,让你能几分钟中就快手上手。 提供一些常见抓取网站的模板,使用模板就能快速抓取数据。如果想抓取没有模板的网站,官网也提供非常详细的图文教程和视频教程。 是基于浏览器内核实现可视化抓取数据,所以存在卡顿、采集数据慢的特点。但这瑕不掩瑜,能基本满足新手在短时间抓取数据的场景,比如翻页查询,Ajax 动态加载数据等。

    4.6K41发布于 2020-04-10
  • 来自专栏Python大数据分析

    推荐5个零代码的爬虫软件,非常容易上手!

    爬虫 算是非常出名的数据采集软件了,很早就流传开来。它是一款无需任何代码,图形化操作非常方便的桌面端爬虫应用,你只需配置好URL,并简单的拖拽就可以实现批量数据采集。 不管是文本、图片、视频亦或表格,都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含,它已经帮你配置好了流程,一键可以实现爬虫。 使用方法: 官网下载安装 → 注册账号。 输入目标网址(如新浪微博评论) → 选择“自动识别网页”。 点击采集 → 导出Excel/CSV文件。 后羿采集器 后羿采集器也是一款无代码的图形爬虫软件,只需要配置url相关信息便可以自动识别网页中的表格、列表、图片等内容,非常的傻瓜式。

    2.2K10编辑于 2025-05-13
  • 来自专栏大数据服务

    推荐10个最好用的数据采集工具

    1、采集器 是基于运营商在网实名制真实数据是整合了网页数据采集、移动互联网数据及API接口服务等服务为一体的数据服务平台。它最大的特色就是无需懂得网络爬虫技术,就能轻松完成采集。 2、火车头采集器 火车采集器是目前使用人数较多的互联网数据采集软件。它凭借灵活的配置与强大的性能领先国内同类产品,并赢得众多用户的一致认可。使用火车头采集器几乎可以采集所有网页。 4、大飞采集器 大飞采集器可采集99%网页,他的速度是普通采集器的7倍,和复制黏贴是一样的准确,它最大的特点就是网页采集的代名词因为专注所以单一。 10、后羿采集器 后羿采集器操作是非常简单的,只有跟着流程来很容易下手,还可以支持多种形式导出。

    9.2K61发布于 2021-07-15
  • 来自专栏镁客网

    刘宝强:用大数据+人工智能布局千亿市场 | 镁客请讲

    2014年3月,Skieer 正式上线了自主研发的云采集服务平台,并基于此向各大行业提供大数据云采集解决方案。 采集器的0代码操作大大降低了用户使用采集工具的门槛,能协助用户快速、高效获取所需的数据。 也正因采集器专业且易用等特点,在今年工信部“最佳大数据应用解决方案”的评选中,采集器从三千多个大数据产品中脱颖而出,是采集领域唯一获奖的产品。 ? 图 | 采集器 全渠道、全触点消费体验数据整合 目前来看,许多大数据技术的应用主要包括产品营销推广、用户画像分析、精准推荐等,Skieer另一款产品云听CEM则是针对品牌企业“客户体验管理”这一重要的消费者洞察环节

    1.1K20发布于 2019-10-15
  • 来自专栏Python大数据分析

    数据采集必备的7个低代码爬虫工具

    零代码工具 爬虫 算是非常出名的数据采集软件了,很早就流传开来。它是一款无需任何代码,图形化操作非常方便的桌面端爬虫应用,你只需配置好URL,并简单的拖拽就可以实现批量数据采集。 官网: https://affiliate.bazhuayu.com/y2t79e 不管是文本、图片、视频亦或表格,都能抓,而且它还提供了非常丰富的采集模板,比如电商、新闻、短视频等主流平台全包含 使用方法: 官网下载安装 → 注册账号。 https://affiliate.bazhuayu.com/y2t79e 输入目标网址(如新浪微博评论) → 选择“自动识别网页”。 Scraper APIs是亮数据专门为批量采集数据而开发的接口,支持上百个网站,200多个专门API采集器,例如Linkedin的职位、公司、人员数据采集器,Tiktok的商品、短视频数据采集器,当然这些数据都是公开可抓取的 后羿采集器 后羿采集器也是一款无代码的图形爬虫软件,只需要配置url相关信息便可以自动识别网页中的表格、列表、图片等内容,非常的傻瓜式。

    1.5K10编辑于 2025-08-06
  • 来自专栏八爪鱼大数据

    采集线下零售消费评价数据,指导商业地产运营

    通过消费偏好和人流数据分析市场潜力,有针对性地定位和选址;✔ 通过分析竞品情况和动态,找到自身的优势和定位;✔ 分析商城店铺或服务的满意度和消费者评价,维护品牌声誉和提升消费者满意度;……本文以美团和大众点评为例,结合采集器在商业地产领域的应用和优势 而采集器具有强大的数据采集能力,能够帮助商业地产从业者高效获取这些数据,更好地了解市场需求,从而辅助决策。 商业地产大数据解决方案拥有多年的数据采集和算法模型能力沉淀,通过对社交媒体平台、o2o平台数据的挖掘与分析,帮助企业洞察消费者偏好,辅助企业选址决策、助力企业进行精细化运营管理,不断优化用户体验 多渠道数据源基于采集器和爬虫程序获取互联网公开数据,包括网页数据和App、小程序数据,覆盖社交媒体平台、短视频平台、电商平台、外卖平台、美食点评平台等,同时通过API接口接入私域数据,拓展数据分析维度

    57310编辑于 2023-12-06
  • 来自专栏机器之心

    适应多形态多任务,最强开源机器人学习系统「」诞生

    现在 Octo()来了! 这个基于 Transformer 的模型堪称当前最强大的开源机器人学习系统,无需额外训练就能完成多样化的机器人操控任务并能在一定程度适应新机器人形态和新任务,就像肢体灵活的

    45810编辑于 2024-06-04
领券