首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏不温卜火

    爬虫入门经典(八) | 使用xpath_爬取

    所以本次博主任性的选择了用xpath爬取的相关信息。 一、lxml语法的简单回顾 ? ? ? ? 二、网页的简单分析 咳咳,爬取网站信息,没有网址可怎么行呢? 我们既然要爬取内容,就不可能只爬取一页内容对4.URL ? 5.作者 ? 6.更新时间 ? 分析完成! Mycsdn:https://buwenbuhuo.blog.csdn.net/ @contact: 459804692@qq.com @software: Pycharm @file: 爬 /.txt", "a", encoding="utf-8") as file: for item in self.items: file.write

    1K20发布于 2020-10-29
  • 来自专栏爬虫资料

    使用Go和JavaScript爬取动态信息的完整指南

    股市信息,特别是来自活跃交流平台如的实时数据,为投资者提供了一个独特的视角,帮助他们洞察市场趋势和投资者情绪。这些信息不仅能够揭示个股的动态,还能反映出整个行业或市场的广泛情况。 这篇文章将探讨如何利用Go和JavaScript这两种流行的编程语言,构建一个高效的网络爬虫,专门针对网站(https://guba.eastmoney.com)的动态信息进行采集。 您可以通过以下命令安装:go get github.com/got/got/browser代码实现以下是爬取东财动态信息的完整代码。 实例以下是代码运行时的示例输出:某某用户:今日股市分析某某用户:股票推荐某某用户:市场趋势预测...这些输出代表了从东财页面上提取的动态信息。 结论通过本指南,您已经了解了如何使用Go和JavaScript爬取东财上的动态信息。结合爬虫代理IP技术,不仅能确保爬虫的稳定性,还能提高隐私保护。

    60010编辑于 2024-05-14
  • 来自专栏九彩拼盘的叨叨叨

    活动#4 来互相 Code Review

    Code Review 是一种通过复查代码,提高代码质量的过程。通过 Review 别人的代码,学习别人写的好的地方。别人 Review 自己的代码,别人可以指出自己的不足。

    33320发布于 2018-08-24
  • 来自专栏编程教程

    金融爬虫实战:实时抓取雪球网讨论热度的技术解析

    金融爬虫实战:实时抓取雪球网讨论热度的技术解析在金融投资领域,投资者情绪是影响市场波动的重要变量。雪球网作为国内领先的投资者社区,其讨论热度数据能直观反映市场情绪变化。 本文将以实战视角,拆解如何用Python构建高效稳定的雪球热度爬虫,涵盖动态请求处理、反爬策略应对、数据存储优化等核心环节。一、技术选型:为什么选择Python+动态请求? 数据解析与清洗接口返回的JSON数据包含多层嵌套结构,需提取关键字段:python1comments = []2for item in data['list']:3 comment = {4 Q4:如何处理接口返回的乱码? 六、总结与展望本文通过实战案例,系统讲解了雪球热度爬虫的核心技术:从动态请求构造到反爬策略应对,从数据清洗到存储优化。

    2K20编辑于 2025-11-17
  • 来自专栏可以叫我才哥

    使用Python进行量化投资A4 种方法!

    另外,yfinance也有类似的功能,使用方法也很简单 Tushare 当然,说到用 Python 进行量化交易,肯定少不了 Tushare 但若要使用完整功能,需要一定的积分,这就看自己的需求。 http://mpvideo.qpic.cn/0bc3lqaaaaaaoyaj25qpmbrfaxgdaboaaaaa.f10002.mp4? dis_k=4e6da654e1bbc5d6818c55e3835d64ea&dis_t=1649751382&vid=wxv_2274959819105320960&format_id=10002&support_redirect

    1.8K10编辑于 2022-04-12
  • 聊一聊slf4j

    尽管log4j也是测试过的,但是Logback的测试更加充分,跟log4j不在同一个级别。我们认为,这正是人们选择Logback而不是log4j的最重要的原因。 slf4j log4j logback slf4j:The Simple Logging Facade for Java 即java的简单日志门面 简答的讲就是slf4j是一系列的日志接口,slf4j作为一个日志的抽象行为存在 Placing one (and only one) of slf4j-nop.jar, slf4j-simple.jar, slf4j-log4j12.jar, slf4j-jdk14.jar or 发生这种情况时,无法找到合适的SLF4J绑定类路径。slf4j-nop放置一个(且只有一个)。slf4j-simple jar。slf4j-log4j12 jar。slf4j-jdk14 jar。 网上看到的一片关于slf4j的文章,感觉挺好的,分享给大家:slf4j源码剖析

    31210编辑于 2025-06-07
  • 来自专栏量子位

    GPT-4击败华尔街?最新研究:选回报超40%

    金磊 发自 凹非寺 量子位 | 公众号 QbitAI 如果把选这事交给GPT-4来处理,会是怎样一种结果? 这个在GPT-4基础上打造的选股票AI,名叫MarketSenseAI。 更是有许多消息拿着数据称“AI永远无法打败股票市场”,认为AI不仅无法预测黑天鹅事件,甚至可能会引发黑天鹤事件: 那么此次基于GPT-4的选研究是否靠谱,我们继续往下看。 通过这种方式,能够在更广泛的经济环境中对单一票进行评估。 最后,信号生成这个步骤将上述所有分析整合,生成针对特定股票的投资信号(例如买入、持有或卖出),并提供详细的逻辑和理由。 例如此前GPT-4刚刚联网之际,便有一家名为Autopilot的公司在X中宣布(账号名为The GPT Portfolio),要用GPT-4进行实盘投资。

    43110编辑于 2024-01-23
  • 来自专栏悦思悦读

    开发一款A

    作者在自学机器学习的过程中,尝试开发了一个基于机器学习的A工具。本文是在赤兔的“数据挖掘”小组分享的此次开发过程和心得体会的整理。 A器开发过程 数据来源 就财经类的数据而言,现在各大门户网站都有专门的频道,信息很多,如果对实时要求高,通过爬虫取其中有用的部分应该是一个办法。 但是在我的实验中,基于人的经验来设计过滤器,准确率并不高,50%多一点,也就是比随机的选稍微好一点。 机器学习建模 接下来考虑选取合适的机器学习算法。 应该不难理解,对于选工具我们应该更关心准确率。 改进模型 为了提高准确率,在开发过程中,我做了下面这些改进尝试: 一个是扩大样本。 股灾日经常是“千跌停”,上涨的股票太少了…可以看出在这些“股灾日”的时候,模型也不太准确,出现了失真。 总结与心得 选工具利用机器学习算法,一般情况下比传统的算法(或者人为经验)的准确率高。

    3.3K80发布于 2018-03-15
  • 来自专栏福大大架构师每日一题

    音视频八文(4)--ffmpeg常见命令(3)

    (2)显示位置 播放视频文件 input.mp4 并将图片文件 logo.png 设为叠加层,分别按照一定的规则将其与原始视频合成,并在播放时应用此滤镜效果: ffplay -i input.mp4 - 如果想以多宫格的方式展现,则可以自己建立一个足够大的画布,下面就来看一下多宫格展示的例子:ffmpeg -i 1.mp4 -i 2.mp4 -i 3.mp4 -i 4.mp4 -filter_complex 1.2.3.4.mp4为文件路径,out.MP4为输出文件路径,通过nullsrc创建overlay画布,画布大小640:480, 使用[0:v][1:v][2:v][3:v]将输入的4个视频流去除,分别进行缩放处理 在这里插入图片描述 在这里插入图片描述 只叠加左上右上的命令: ffmpeg -i 1.mp4 -i 2.mp4 -i 3.mp4 -i 4.mp4 -filter_complex "nullsrc 将四个 MP4 文件 1.mp4、2.mp4、3.mp44.mp4 按照一定的规则合并,并将合并后的视频数据保存为 MP4 文件 out2.mp4

    1.1K30编辑于 2023-06-09
  • 来自专栏福大大架构师每日一题

    音视频八文(4)--ffmpeg常见命令(3)

    原始视频文件路径:input.mp4Ø 水印图片路径:logo.pngØ 水印位置:(x,y)=(10,10)<=(left,top)距离左侧、顶部各10像素;Ø 输出文件路径:output.mp4 =1[out]"播放视频文件 input.mp4 并将另一个视频文件 sub_320x240.mp4 设为叠加层,然后根据一定的规则将其与原始视频合成,并在播放时应用此滤镜效果:ffplay -i input.mp4 如果想以多宫格的方式展现,则可以自己建立一个足够大的画布,下面就来看一下多宫格展示的例子:ffmpeg -i 1.mp4 -i 2.mp4 -i 3.mp4 -i 4.mp4 -filter_complex 图片图片只叠加左上右上的命令:ffmpeg -i 1.mp4 -i 2.mp4 -i 3.mp4 -i 4.mp4 -filter_complex "nullsrc=size=640x480[base MP4 文件 1.mp4、2.mp4、3.mp44.mp4 按照一定的规则合并,并将合并后的视频数据保存为 MP4 文件 out2.mp4

    1.6K00编辑于 2023-04-23
  • 来自专栏镁客网

    遭血洗,科技大跌

    道指跌超过830点,创近两个月新低,纳指跌逾4%,创三个多月新低。并且,隔夜美的暴跌态势已经蔓延到了亚太股市和欧洲股市。 今日早上,亚太市场开盘后随美一样暴跌。 其中,最早开盘的澳洲股指ASX200指数盘初跌2%,日日经225指数开盘跌2%,日本东证指数下跌3%,迈向3月以来最大跌幅,韩国KOSPI指数开盘下跌2.43%。 台加权指数开盘跌1.9%,目前跌幅扩大至逾4%。 在美惨遭血洗的时候,其中,科技巨头的股票也一路下跌。 券商Guggenheim Partner分析师Scott Minerd形容周三美的表示警告称美国经济正在全力加息以控制通胀与劳动力市场过热,它正在接近2020年的遥远财政困境。

    66940发布于 2018-10-18
  • 来自专栏未竟东方白

    【Unity】瞎做个宝石迷阵!(4)——记分与读取

    再再再接上篇【Unity】瞎做个宝石迷阵!(3)——宝石消除 终于来到了尾声,做了那么多准备,就差把这辣鸡的宝石迷阵收尾了。游戏的主体部分我们已经做完,结尾便是简单的交互部分。 这样的方法简单粗暴,几乎没有实用性,仅当练习信息的通信和重载关卡函数的使用。 ? ? ?

    76720发布于 2020-07-29
  • 来自专栏福大大架构师每日一题

    音视频八文(10)-- mp4结构

    介绍mp4⽂件格式⼜被称为MPEG-4 Part 14,出⾃MPEG-4标准第14部分 。它是⼀种多媒体格式容器,⼴泛⽤于包装视频和⾳频数据流、海报、字幕和元数据等。 下图是⼀个典型mp4⽂件的基本结构:图片MP4⽂件的基本组成单元是box,也就是说MP4⽂件是由各种各样的box组成的,有parent box,还有children box。 1 14B4C4 Time to Sample (1048 bytes)2 14B4C4 Header (8 bytes)3 14B4C4 Size: 1048 (0x00000418)4 14B4C8 )8 14B4D4 Sample Count: 1 (0x00000001)9 14B4D8 Sample Duration: 1024 (0x00000400)10 14B4DC Sample Count 09分隔符,这⾥占⽤了6个字节, 再看真正的数据区域,前4字节也为 NALU的⻓度0x000051bc=20924总共占⽤的字节计算 4+2+4+20924 = 20934图片

    1.5K10编辑于 2023-05-05
  • 来自专栏子勰随笔

    — 来到摇,那就摇

    之前和一些人做了Android比较久的人聊天发现,自己在UI上或者整个APP的开发商一直有一些短板,因此从去年开始就陆陆续续自己倒腾个app来玩,历时半年多,断断续续也终于做出来个小玩意,分享一下。 摇简介 摇是子勰开发的一款基于手机摇一摇功能的小游戏或者游戏助手集合。目前摇已经支持骰子战争。摇中,所有游戏的使用方法都是摇一摇,打开手机摇一摇,体验摇带来的乐趣

    2.5K50发布于 2018-05-22
  • 来自专栏小姚的后端记录

    浏览器输入网址到看到结果的全过程 ==首先是解析url,然后进行缓存判断,判断请求的资源在不在缓存中,如果在缓存中且没有失效,就直接使用,否则就要向服务器发起请求。 (4)获取MAC地址: 当浏览器得到 IP 地址后,数据传输还需要知道目的主机 MAC 地址,因为应用层下发数据给传输层,TCP 协议会指定源端口号和目的端口号,然后下发给网络层。 存储容量: Cookie:每个Cookie通常限制在4KB左右的存储容量。因此,Cookie适用于小量数据。 Session:服务器上的Session对象通常可以存储更大的数据,取决于服务器的配置。

    57740编辑于 2023-10-11
  • 来自专栏CDA数据分析师

    先想想这4个问题

    对于那些有兴趣利用大数据的小企业来说,需要考虑以下4个问题: 1. 我的企业中,最紧迫的挑战是什么? 好好回想一下过去的几个月中你的企业面临的问题:同事之间摩擦不断?总是拉不到客户?顾客反馈欠佳? 4. 我该怎样把这种新的理念应用于实践? 有远见的公司会明白,对于那些很难把握、不太容易注意到的问题,数据驱动是一个很不错的指导方向。用数据有助于你制定规划,也能让企业盈利能力增强。 回答上述4个问题不仅能帮助你消除有关大数据的困惑,还能让你有计划、有组织地利用数据。

    59550发布于 2018-02-23
  • 来自专栏嵌入式iot

    树莓派4 rt-smart体验一下

    树莓派4 rt-smart体验一下! 本文主要展示一下rt-smart在树莓派4上的运行效果。后面会随着rt-smart的源代码发布,一步一步介绍编译环境与移植相关的东西。 2.1 硬件准备 1.树莓派4B 2.SD卡(32GB或32GB以下) 3.USB转TTL串口线 4.网线 5.TYPEC(供电) 6.读卡器 ? 其中bin文件夹中存放已经编译好的可执行文件,kernel7.img为树莓派4上的rt-smart的kernel。 最简单的搭建http服务器可以使用python2 python -m SimpleHTTPServer 4.后续 通过rt-smart基本的展示,可以看到rt-smart在树莓派4上运行的效果。

    1.4K30发布于 2020-11-09
  • 来自专栏养码场

    还是先看看手里的A怎么破

    是福是祸交给时间评判。 ? A,哎! A的股民们,对于上周的行情,场主只能说一句,保重... ? 不多说了,新的一周开始了,你们准备好了吗? 养码人A:先割肉,再追高的,可能想死的心都有了。 养码人C:A的股民,一到周五,都这样想:下周应该会好些! 岁月就在这一天一天的期盼中蹉跎了。 ? ? 老小区加装电梯 in不in?

    29330发布于 2018-08-10
  • 来自专栏大数据那些年

    kafka的JavaAPI操作(4)——进来了解一下

    先点个赞! ? 1、kafka的JavaAPI操作 1、创建maven工程并添加jar包 创建maven工程并添加以下依赖jar包的坐标到pom.xml <dependencies> <! @Override public int partition(String topic, Object arg1, byte[] keyBytes, Object arg3, byte[] arg4, #4、消费者组 group.id=test (1)自动提交offset 消费完成之后,自动提交offset /** * 消费订单数据--- javaben.tojson */ public class Collections.singletonMap(partition, new OffsetAndMetadata(lastOffset + 1))); } } } finally { consumer.close();} (44、什么时候提交offset值?在Consumer将数据处理完成之后,再来进行offset的修改提交。默认情况下offset是 自动提交,需要修改为手动提交offset值。

    45130发布于 2021-04-13
  • 爬虫技术选:Python 自动化筛选潜力

    BeautifulSoup4:强大的网页解析库,能够将 Requests 获取的杂乱 HTML 页面解析为结构化数据,方便提取我们需要的股票代码、营收、净利润等核心信息。 前期环境搭建其中lxml是 BeautifulSoup4 的高效解析器,能够提升网页解析速度,建议一并安装。 python运行import requestsfrom bs4 import BeautifulSoupimport pandas as pd# 配置请求头,模拟浏览器访问,避免被网站反爬headers python运行import requestsfrom bs4 import BeautifulSoupimport pandas as pd# 配置请求头,模拟浏览器访问,避免被网站反爬headers 五、总结本文通过 Python 的 Requests、BeautifulSoup4 与 Pandas 三大核心库,实现了一套完整的自动化选流程,从公开金融数据抓取到标准化清洗,再到基于价值投资指标的潜力筛选

    87510编辑于 2026-01-14
领券