首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏python3

    Python小说

    这次爬虫并没有遇到什么难题,甚至没有加header和data就直接弄到了盗版网站上的小说,真是大大的幸运。 所用模块:urllib,re 主要分三个步骤: (1)分析小说网址构成; (2)获取网页,并分离出小说章节名和章节内容; (3)写入txt文档。 #-*-coding:GBK-*- #author:zwg ''' 小说网站的免费小说 ''' import urllib import urllib2 import re url='http:/ \n') file1=file('间客.txt','w+') [write_novel(i,file1) for i in range(50)] file1.close() 好了,不说了,我要看小说去了

    2.3K20发布于 2020-01-07
  • 来自专栏python爬虫实战之路

    起点小说--scrapyredisscrapyd

    之前写了一篇网络字体反之pyspider起点中文小说 可能有人看了感觉讲的太模糊了,基本上就是一笔带过,一点也不详细。 这里要说明一下,上一篇主要是因为有字体反,所以我才写了那篇文章,所以主要就是提一个字体反的概念让大家知道,其中并没有涉及到其他比较难的知识点,所以就是大概介绍一下。 今天依然是起点小说。 start_urls:爬虫初始的链接列表 custom_setting = {} # 自定义的setting配置 方法 start_requests:启动爬虫的时候调用,urls的链接,可以省略 () process = CrawlerProcess(settings=settings)# 可以添加多个spiderprocess.crawl(QidianSpider)# 启动爬虫,会阻塞,直到完成 因为我在的过程中发现起点首页提供的所有小说信息中,最后一些分页里的数据都是重复的,所以还是需要增加去重处理的。

    2.1K40发布于 2018-08-21
  • 来自专栏洞明学问

    用 Python 小说

    Python 网络的内容是非常方便的,但是在使用之前,要有一些前端的知识,比如: HTML、 CSS、XPath 等知识,再会一点点 Python 的内容就可以了。 return content """ To save to text Parameters: name - 章节名称 path - 当前路径 + 小说名 就是一开始从目录页获取的时候,只能读取 193 篇文章,经过排查,发现是在使用 BeautifulSoup 的时候解析的有点问题,将原本的 “lxml” 方式修改为 “html.parser” 方式就可以了 不过因为这本小说字数真的有点多

    1.7K40发布于 2019-10-30
  • 来自专栏从零开始的Code生活

    Python爬虫—小说

    selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities 一章内容 选择的小说是你是我的城池营垒,如果要把所有章节取下来就要点进每一章然后去,一开始觉得有点击所以要用selenium,但是写到后面发现传每一章的url就可以不用模拟点击,所以可以不用selenium div后面也加一个,要不然每一章小说就会连在一起。 把上面的一个章节封装成一个函数,一会调用。 链接都是有长度相等的字符串,所以可以用切片的方法获取每一章的链接: for li in all_li: str_0 = str(li) str_0 = str_0[9: 31] 然后把链接传到每一章的函数里就可以完成整章小说取了

    93910编辑于 2022-01-13
  • 来自专栏python知识

    小说相关指南

    指南 目前最火的小说《xxx》为例: 实现步骤 获取小说所有章节以及对应地址 遍历所有章节地址,获取其标题以及内容 最后,把内容写入文本 学习重点 写入文本方式一: import codecs #

    43430编辑于 2021-12-01
  • 来自专栏吉吉的机器学习乐园

    Python爬虫实战——小说

    今天分享一个简单的爬虫——小说。 01 页面分析 ---- 首先我们进入某小说网的主页,找到免费完本的页面。 然后随便挑一本小说点击进入小说的详细页面,点击查看目录。 content.text + "\n") # print(content.text) print(url[0] + "——已完毕 except Exception as e: print(e) 02 爬虫获取 ---- 我们封装获取各个章节Url的类和获取各个章节内容的类,编写一个启动文件,并且传入查看小说目录的 StartSpider.py from SpiderQiDian.GetChapterContent import * if __name__ == '__main__': # 要小说的url

    3.4K10编辑于 2022-07-13
  • 来自专栏会呼吸的Coder

    利用scrapy整站小说

    利用scrapy整站小说 今天带大家实践一把整站小说,当然只是出于学习目的,大家千万不要应用于商业应用,因为可能出现侵权问题。本教程默认大家已经安装了scrapy,并且熟悉python语法。 我们将逐步解析网站,然后将小说取保存到本地。 1.分析网页 通过点击查看各个网页的目录结构发现,小说的各个类目的网页结构都是一致的,所以我们只要能解析一个类目,那么基本所有的类目都可以解析,那么我们就暂时解析玄幻类目,解析完毕后,将其他类目加入队列即可全站 那么我们接下来就开始 2.创建项目 使用scrapy命令创建项目,创建项目需要两条命令: //创建项目,最后一个参数为项目名称 >> scrapy startproject xiaoshuoSpider ('//ul/li/span[@class="s2"]/a') #循环取到的小说,将其章节目录页的链接存放入scrapy的队列 for i in booklist:

    1.4K40发布于 2021-09-24
  • 来自专栏用户5305560的专栏

    【爬虫】豆瓣高评分小说

    import requests import re import time headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/56.0.2924.87 Safari/537.36' } f = open('C:/Users/LP/Desktop/doupo.txt','a+') def get_info(url): res

    41320发布于 2021-08-11
  • 来自专栏程序员小藕

    小说网站章节和小说语音播放

    小说网站章节和小说语音播放 小说网站说干就干!! 现在来了,撸起袖子开始就是干!! 百度搜索一下 "小说网站" ,好第一行就你了,目标-->"起点小说" ? 点击进去复制改小说的网址为:起点小说("https://www.qidian.com/") ? 有人就会问了,我整理好了怎么去获取改文件的超链接呢对吧,别慌这就讲来; 看到网站的结构是这样的那么对应的的路线就有了, ? 上面形成的xml对应的属性结构去查询他的对应的节点,这样我们就很容易会取到对应的图片的连接对吧.... ? ? 这个是上面文件取到的图片(一部分): ? 请求网站拿到HTML源代码,抽取小说名、小说链接 创建文件夹 16 17 response = requests.get("https://www.qidian.com/all") 18

    2.2K10发布于 2020-07-28
  • 来自专栏算法与编程之美

    Java|“ Java”来小说章节

    1 前提简介 在上一篇Java|使用WebMagic进行电话“的文章里就已经介绍了如何主要使用Pageprocessor去电话号码,接下来将要学习到的是去起点中文网的小说,并且按照小说名和章节分别保存 2 简单查看 下面就是需要去小说页面以及内容,但保存下来的文件只需要章节内容,像第一章的开头就不需要,于是需要注意去判断。 ? 图2.1 起点中文网 ? 图2.2 玄幻新书 ? java.io.FileOutputStream; import java.io.PrintWriter; import java.util.ArrayList; import java.util.List; /** * 起点小说 */ public class GetQidianBook implements PageProcessor { //设置带文件的相关配置 private Site System.out.println(title + " " + "完毕"); } catch (FileNotFoundException e)

    2.6K10发布于 2020-04-15
  • 来自专栏爬虫

    小说案例-BeautifulSoup教学篇

    @TOC 前言 当我们进行各种资源,拿到源码进行解析数据的时候,会用到各种解析方式,本文介绍的小说的一个案例,使用比较受欢迎的python第三方库BeautifuSoup来进行解析数据。 导航 小说案例-BeautifulSoup教学篇 二手房案例--parsel教学篇(CSS选择器) 美国公司案例-parsel库教学篇(Xpath的详细使用) 东方财富网-parsel 教学篇(正则表达式的详细使用+实例) QQ音乐的评论-JSON库的详细使用 BeautifulSoup BeautifulSoup介绍 BeautifulSoup 是一个用于从 HTML 和 XML 获取class为info的div元素的文本内容 soup.find("div",class_="info").string # 获取p标签的所有属性,返回一个字典 soup.p.attrs 下面通过起点小说网的万相之王并把每章的内容储存到本地为例 /chapter") # 起点小说网网址 url="https://www.qidian.com/book/1027368101/" # 请求头 Users-Agent为浏览器的标识,Cookie为会话标识

    54800编辑于 2025-01-16
  • 来自专栏python知识

    小说存入数据库

    准备工作 安装: # 数据库驱动 pip install pymysql # 数据库连接池 pip install DBUtils 建表 CREATE TABLE `novel` ( `id` int(11) NOT NULL AUTO_INCREMENT COMMENT '自增主键', `title` varchar(100) NOT NULL COMMENT '标题', `content` text NOT NULL COMMENT '内容', PRIMARY KEY (`id`

    1.6K50编辑于 2021-12-01
  • 来自专栏用砖头敲代码

    简单使用Scrapy小说

    ,和小说章节 def parse_chapter(self, response): # 获取小说分类 novel_class = response.meta['novel_class '] # 获取小说名 novel_name = response.xpath('//*[@id="info"]/h1/text()').get() # 获取小说章节列表 ] # 小说名 novel_name = response.meta['novel_name'] # 小说章节 novel_chapter = response.meta scrapy.Field() # 章节内容 novel_content = scrapy.Field()经过上面步骤,我们的小爬虫就可以网站上面所有的小说了,至于分析过程,自己看代码吧, novel_chapter'])) return item写完这个,我们的小爬虫就可以正常工作了,只需要在cmd里面敲下面的代码,小爬虫就可以爬起来了,只需要Ctrl+C就可以保存进度,下一次可以接着scrapy

    93320编辑于 2022-06-14
  • 来自专栏python学习教程

    python 小说并下载【附代码】

    这篇文章主要介绍了python 小说并下载的示例,帮助大家更好的理解和学习python爬虫 代码 import requestsimport timefrom tqdm import tqdmfrom 可以看到,小说内容保存到“诡秘之主.txt”中,小说一共 1416 章,下载需要大约 20 分钟,每秒钟大约下载 1 个章节。 下载完成,实际花费了 27 分钟。 20 多分钟下载一本小说,你可能感觉太慢了。想提速,可以使用多进程,大幅提高下载速度。如果使用分布式,甚至可以1秒钟内下载完毕。 但是,我不建议这样做。 以我们这次下载小说的代码为例,每秒钟下载 1 个章节,服务器承受的压力大约 1qps,意思就是,一秒钟请求一次。 以上就是python 小说并下载的示例的详细内容

    2.8K30发布于 2020-12-16
  • 来自专栏九陌斋

    Python小说并写入word文档

    进入首页,选择我们要的书籍,点进去,刷新页面,确定书籍的url。 至此,基本就可以确定思路了: 手动获取小说url——>章节名称及其url——>正文获取 环境准备 环境还是比较简单的,请求工具+解析工具+文档写入工具,具体包含四个 pip install requests cookie和user-agent获取方式: 发送请求获取数据 导入requests包,设置headers字典类型的参数,headers就是上面获取的cookie和user-agent参数;然后设置要小说的 /a/@title') if len(href): print(href, title) i = i + 1 else: print("完成 ,再是小说内容的获取,清晰简单; 批量小说思路 这个就简单的扩展一下,我们发现网站中会有一个全部小说页,内容就是小说列表; 所以思路就是这个页面的小说名称和基本信息以及小说概览页的URL; 进一步重复本文的主要工作就行

    1.5K10编辑于 2023-03-08
  • 来自专栏北京马哥教育

    Python 爬虫:小说花千骨

    1.Beautiful Soup 1.Beautifulsoup 简介 此次实战从网上小说,需要使用到Beautiful Soup。 Navigablestring BeautifulSoup Comment 2.遍历文档树:find、find_all、find_next和children 3.一点点HTML和CSS知识(没有也将就,现学就可以) 2.小说花千骨 1.爬虫思路分析 本次小说的网站为136书屋。 我们要的内容全都包含在这个

    里面。 请注意,我们要的是第二个
    中的内容。

    1.7K50发布于 2018-05-02
  • 来自专栏python学习教程

    Python爬虫教程,小说网站

    网站:http://www.biqugecom.com/ 方式:整站,就是把该站所有的小说都爬下来。 ', 'http://www.biqugecom.com/list/7-1.html', 'http://www.biqugecom.com/list/8-1.html'] 之后再根据每个分类的链接,该分类下的小说 通过Xpath 获取到了一本小说的链接。 再根据一本小说的链接小说的章节链接,首先获取章节的Xpath: ? 获取到了一章的链接,再根据一章的链接获取小说的文本内容,还是Xpath获取: ? 获取到小说的文本内容,下面就可以开始内容了,这里先整理一下待的内容的Xpath: //*[@class='media-heading book-title']/a/@href 一章的Xpath: 查看小说: ? ?

    1.8K30发布于 2020-03-02
  • 来自专栏Java+爬虫

    Spider实战系列-鬼吹灯小说

    网站链接放在这里了​​鬼吹灯​​ 主要是以协程为主来小说得章节内容,协程不懂得小伙伴可以先关注我一手,后续会整理理论的知识放在专栏里 整体思路 得到鬼吹灯页面的源码 解析源码得到每一个章节的url semaphore))) await asyncio.wait(tasks) 复制代码 主函数运行 主函数运行就没什么可说的了,这里注意一点就是最后不要loop.close(),这样的话会导致你还没有完数据 ,loop.close()就会关闭,情况如下,还剩一点就完了,结果报错了 if __name__ == '__main__': url = 'https://www.51shucheng.net 我就不一一截图了 总结 为什么我在这里比对了xpath和bs4两种代码,小伙伴可以仔细看一下,在xpath中,我想拿到数据,找到它,大量的使用了//这种,这样的话就会从源码内全局检索,这就导致了我想文章内容会很慢 /a/@href')[0] 复制代码 还有就是遇到了特殊符号要把它干掉,或者替换掉,这样就可以正常数据 如果有小伙伴想要直接拿取源码的话,可以顺着代码实现一步步粘贴过去

    1.1K00编辑于 2023-03-02
  • 来自专栏IT架构圈

    python3小说存为文本实现小说下载

    的对象:第三方小说网站:顶点小说网 以小说:修真聊天群 为例 #! max_len, thread_stop, max_thread, start_time basic_url = 'www.booktxt.net' url_1 = input("请输入需要下载的小说目录地址 ,仅限顶点小说网[www.booktxt.net]:") print('正在抓取目录章节 decode('gbk') txt_name = re.compile(txt_name_partern).findall(html_data) print('小说名称 start_time h = int(times) // 3600 m = int(times) % 3600 // 60 s = int(times) % 60 print("小说下载完成

    1.9K40发布于 2018-06-01
  • 来自专栏python3

    Python的scrapy之6毛小说

    闲来无事想看个小说,打算下载到电脑上看,找了半天,没找到可以下载的网站,于是就想自己一下小说内容并保存到本地 圣墟 第一章 沙漠中的彼岸花 - 辰东 - 6毛小说网  http://www.6mao.com /html/40/40184/12601161.html 这是要的网页 观察结构 ?

    1.3K30发布于 2020-01-20
领券