首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏不温卜火

    爬虫入门经典(八) | 使用xpath_爬取

    所以本次博主任性的选择了用xpath爬取的相关信息。 一、lxml语法的简单回顾 ? ? ? ? 二、网页的简单分析 咳咳,爬取网站信息,没有网址可怎么行呢? 我们既然要爬取内容,就不可能只爬取一页内容对。 next_url[0] print(next_url) 四、完整代码 # encoding: utf-8 ''' @author 李华鑫 @create 2020-10-07 9: Mycsdn:https://buwenbuhuo.blog.csdn.net/ @contact: 459804692@qq.com @software: Pycharm @file: 爬 /.txt", "a", encoding="utf-8") as file: for item in self.items: file.write

    1K20发布于 2020-10-29
  • 来自专栏爬虫资料

    使用Go和JavaScript爬取动态信息的完整指南

    股市信息,特别是来自活跃交流平台如的实时数据,为投资者提供了一个独特的视角,帮助他们洞察市场趋势和投资者情绪。这些信息不仅能够揭示个股的动态,还能反映出整个行业或市场的广泛情况。 这篇文章将探讨如何利用Go和JavaScript这两种流行的编程语言,构建一个高效的网络爬虫,专门针对网站(https://guba.eastmoney.com)的动态信息进行采集。 您可以通过以下命令安装:go get github.com/got/got/browser代码实现以下是爬取东财动态信息的完整代码。 实例以下是代码运行时的示例输出:某某用户:今日股市分析某某用户:股票推荐某某用户:市场趋势预测...这些输出代表了从东财页面上提取的动态信息。 结论通过本指南,您已经了解了如何使用Go和JavaScript爬取东财上的动态信息。结合爬虫代理IP技术,不仅能确保爬虫的稳定性,还能提高隐私保护。

    60010编辑于 2024-05-14
  • 来自专栏编程教程

    金融爬虫实战:实时抓取雪球网讨论热度的技术解析

    金融爬虫实战:实时抓取雪球网讨论热度的技术解析在金融投资领域,投资者情绪是影响市场波动的重要变量。雪球网作为国内领先的投资者社区,其讨论热度数据能直观反映市场情绪变化。 本文将以实战视角,拆解如何用Python构建高效稳定的雪球热度爬虫,涵盖动态请求处理、反爬策略应对、数据存储优化等核心环节。一、技术选型:为什么选择Python+动态请求? Sec-Fetch-Mode': 'cors',7 'Sec-Fetch-Site': 'same-origin',8 'X-Requested-With': 'XMLHttpRequest'9} 'page'] = page5 # 请求逻辑同上6 return comments78with ThreadPoolExecutor(max_workers=5) as executor:9 六、总结与展望本文通过实战案例,系统讲解了雪球热度爬虫的核心技术:从动态请求构造到反爬策略应对,从数据清洗到存储优化。

    2K20编辑于 2025-11-17
  • 来自专栏微信公众号【Java技术江湖】

    后端技术杂谈9:先搞懂Docker核心概念

    本系列文章将整理到我在GitHub上的《Java面试指南》仓库,更多精彩内容请到我的仓库里查看

    61410发布于 2019-12-09
  • 来自专栏IT技术分享社区

    分享9个实用的电脑维修技巧,赶紧收藏

    今天给大家分享9个实用的电脑维修技巧,赶紧收藏! 01、电脑不能上网 ? 常见原因1:新装系统无驱动 解决方法:需要下载驱动进行安装,可以先从其他设备下载拷贝到U盘安装。

    2.4K30发布于 2021-06-24
  • 来自专栏微信公众号:小白课代表

    无忧考 2018年9月二级office题库。

    计算机等级考试中可报考人数最多的就属于二级office了,市面上各种题库也很多,课代表之前也推荐过几个,今天给大家更新一个无忧考2018.9二级office题库。 使用平台:windows 获取方式:在公众号后台回复『074』或『无忧考』。 ? 安装教程 ❶首先解压下载好的压缩包,安装题库。 ? ❷下一步。 ? ❸接受条款并下一步。 ? ❹更改安装路径。 ?

    72530发布于 2018-06-29
  • 来自专栏悦思悦读

    开发一款A

    作者在自学机器学习的过程中,尝试开发了一个基于机器学习的A工具。本文是在赤兔的“数据挖掘”小组分享的此次开发过程和心得体会的整理。 A器开发过程 数据来源 就财经类的数据而言,现在各大门户网站都有专门的频道,信息很多,如果对实时要求高,通过爬虫取其中有用的部分应该是一个办法。 但是在我的实验中,基于人的经验来设计过滤器,准确率并不高,50%多一点,也就是比随机的选稍微好一点。 机器学习建模 接下来考虑选取合适的机器学习算法。 应该不难理解,对于选工具我们应该更关心准确率。 改进模型 为了提高准确率,在开发过程中,我做了下面这些改进尝试: 一个是扩大样本。 股灾日经常是“千跌停”,上涨的股票太少了…可以看出在这些“股灾日”的时候,模型也不太准确,出现了失真。 总结与心得 选工具利用机器学习算法,一般情况下比传统的算法(或者人为经验)的准确率高。

    3.3K80发布于 2018-03-15
  • 来自专栏镁客网

    遭血洗,科技大跌

    并且,隔夜美的暴跌态势已经蔓延到了亚太股市和欧洲股市。 今日早上,亚太市场开盘后随美一样暴跌。 其中,最早开盘的澳洲股指ASX200指数盘初跌2%,日日经225指数开盘跌2%,日本东证指数下跌3%,迈向3月以来最大跌幅,韩国KOSPI指数开盘下跌2.43%。 台加权指数开盘跌1.9%,目前跌幅扩大至逾4%。 在美惨遭血洗的时候,其中,科技巨头的股票也一路下跌。 券商Guggenheim Partner分析师Scott Minerd形容周三美的表示警告称美国经济正在全力加息以控制通胀与劳动力市场过热,它正在接近2020年的遥远财政困境。

    66940发布于 2018-10-18
  • 来自专栏ImportSource

    Java9来了,快来了解下JPMS基础

    Java平台模块系统(JPMS)是Java SE 9的主要新功能。 是java SE 9的最主要的一个新功能。 本文就来细细介绍下JPMS。 JPMS ,是一个全新的模块系统,作为项目Jigsaw来开发,目的就是要提高java编码的抽象级别。 出于兼容性原因,大多数现有代码可以忽略Java SE 9中的JPMS,这可能被证明是非常有用的。 关键的概念要点是JPMS向JVM增加了一个新概念,这个概念叫模块(modules)。 在Java 9中呢?开发人员可以让一个包(pacakge)不被其他模块看到就是一个包可以隐藏在一个模块中。 在理论上,能够隐藏软件包对于应用程序设计来说应该是一个很大的好处。 总结 不要对Java 9中的JPMS - 模块感到太兴奋。以上只是对module-info.java文件可能的内容和JPMS的限制的总结。

    3.1K80发布于 2018-04-03
  • 来自专栏子勰随笔

    — 来到摇,那就摇

    之前和一些人做了Android比较久的人聊天发现,自己在UI上或者整个APP的开发商一直有一些短板,因此从去年开始就陆陆续续自己倒腾个app来玩,历时半年多,断断续续也终于做出来个小玩意,分享一下。 摇简介 摇是子勰开发的一款基于手机摇一摇功能的小游戏或者游戏助手集合。目前摇已经支持骰子战争。摇中,所有游戏的使用方法都是摇一摇,打开手机摇一摇,体验摇带来的乐趣

    2.5K50发布于 2018-05-22
  • 来自专栏小姚的后端记录

    浏览器输入网址到看到结果的全过程 ==首先是解析url,然后进行缓存判断,判断请求的资源在不在缓存中,如果在缓存中且没有失效,就直接使用,否则就要向服务器发起请求。 (9)TCP四次挥手: 最后一步是 TCP 断开连接的四次挥手过程。若客户端认为数据发送完成,则它需要向服务端发送连接释放请求。服务端收到连接释放请求后,会告诉应用层要释放 TCP 链接。

    57740编辑于 2023-10-11
  • 来自专栏测试开发干货

    《跟热饭一起学习vue》Part.9 过滤器

    vue的新知识点,过滤器,这个过滤器是要过滤谁?其实就是某个变量而已。但是这里我觉得叫过滤器并不准确,因为它能做的事情太多了,叫修改器还差不多。

    37010编辑于 2022-05-19
  • 来自专栏养码场

    还是先看看手里的A怎么破

    是福是祸交给时间评判。 ? A,哎! A的股民们,对于上周的行情,场主只能说一句,保重... ? 不多说了,新的一周开始了,你们准备好了吗? 养码人A:先割肉,再追高的,可能想死的心都有了。 养码人C:A的股民,一到周五,都这样想:下周应该会好些! 岁月就在这一天一天的期盼中蹉跎了。 ? ? 老小区加装电梯 in不in?

    29330发布于 2018-08-10
  • 爬虫技术选:Python 自动化筛选潜力

    :处理抓取到的缺失值、异常值、格式错误等问题,形成标准化数据集;选逻辑实现:基于价值投资与成长投资的核心指标,预设筛选规则,利用 Pandas 完成自动化筛选;结果输出:将筛选出的潜力整理为表格,保存为本地文件方便查阅 ,实现自动化筛选选逻辑是自动化选的核心,本文结合价值投资的经典指标,预设以下筛选规则(可根据个人投资风格调整):每股收益(EPS)> 0.3 元(反映个股盈利能力较强);净利润增长率 > 10%(反映个股具备持续成长潜力 选逻辑优化本文预设的选逻辑为基础版本,实际投资中可根据需求扩展:增加更多财务指标:资产负债率、毛利率、现金流净额等;加入行情趋势指标:5 日均线、20 日均线、成交量增长率等;引入量化模型:结合均线策略 五、总结本文通过 Python 的 Requests、BeautifulSoup4 与 Pandas 三大核心库,实现了一套完整的自动化选流程,从公开金融数据抓取到标准化清洗,再到基于价值投资指标的潜力筛选 这套流程不仅大幅提升了选效率,还避免了人工选的主观疏漏,为普通投资者和量化交易爱好者提供了可行的技术方案。

    87510编辑于 2026-01-14
  • 来自专栏诺依阁的日记簿

    用红帽&红帽衍生发行版 9来优化你的站点

    主要是最小化的红帽9,启动速度比7和8更加快速,只要你会手动配源就能体验到秒速启动的快感。 然后就是Centos Stream属于滚动发行版,所以红帽9可以尝试使用Rocky的源。

    43600编辑于 2025-02-28
  • 来自专栏前端少年汪的博客

    放弃Redux,转投Zustand

    Zustand 的核心思想是将状态管理与组件分离,从而使得状态管理更加集中化,同时保持了 React 的响应性和组件的可重用性。它提供了一种简单的 API,使得开发者能够轻松地在应用程序中的任何地方访问和修改状态。 使用 Zustand,开发者可以通过创建一个 store 来存储和管理应用程序的状态。这个 store 是通过调用 createStore 方法并传入一个包含状态和操作的 object 来创建的。

    1.8K10编辑于 2024-04-01
  • spring八记录

    非核心功能的整合,面向对象思维的一个补充9.spring aop | jdk proxy的底层 | 为什么使用jdk proxy动态创建代理对象必须要被代理的类实现接口 了解吗? 8.拦截器的posthandler() 逆向拦截 9.根据返回的ModelAndView选择一个适合的ViewResolver进行视图解析,根据Model和View,来渲染视图. 10.aftercompletion EnableConfigurationProperties用于启用我们自定义的配置属性类 3.创建配置属性类:加上@ConfigurationProperties,绑定配置文件中的属性 4.在application.yml中配置属性9.

    34710编辑于 2024-12-04
  • 来自专栏LB说IOT

    物联网龙头

    并非只有计算机和智能手机才能连接到互联网。诸如灯泡,电视,大型家用电器甚至门铃之类的日常物品越来越具有Internet连接功能。物联网(IoT)包括所有这些设备和对象,它们都通过Internet与数据中心相互通信。

    58840编辑于 2022-04-12
  • 来自专栏爬虫资料

    利用中间件实现任务去重与分发精细化:舆情数据采集与分析实战

    一、项目背景:为什么要精细化采集东财?在股票市场中,情绪驱动效应越来越明显。 散户投资者对个股的情绪变化,往往先于价格的异动,而东财作为国内最活跃的财经论坛之一,承载了大量关于个股的观点、讨论和预判内容。 为解决上述问题,我们设计了一个基于中间件机制的去重与分发精细化采集方案,并围绕东财构建了可用于舆情分析的数据模型与结构化流程。 例如我们关注的字段包括股票代码、对应名、帖子标题、正文内容、发帖时间、评论数量、互动数量(如点赞、点踩)等。这一层结构是后续进行“事件演化轨迹”分析的基础。

    46410编辑于 2025-07-23
  • 来自专栏福大大架构师每日一题

    视频八文(9)-- flv的h264六层结构和aac六层结构

    FLV头占9个字节,⽤来标识⽂件为FLV类型,以及后续存储的⾳视频流。 120 00:00:00:120 (解码时间) CompositionTime:0x 00 00 50 值:80 00:00:00:80 B帧 显示时间:00:00:00: 200 poc=3 tag9 ----7 = G.711 A-law logarithmic PCM , reserved ----8 = G.711 mu-law logarithmic PCM , reserved ----9 = reserved ----10 = AAC (supported in Flash Player 9,0,115,0 and higher) ----11 = Speex (supported in supported) --5 = Null --6 = Undefined --7 = Reference【UI16】 --8 = ECMA array【SCRIPTDATAECMAARRAY】 --9

    44640编辑于 2023-06-09
领券