首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏小锋学长生活大爆炸

    【笔记】简单学习设计模式

    文章目录 抽象工厂 另外可参考:设计模式的UML图 抽象工厂 // 只定义了需要实现的内容 interface HtmlDoc { void print(); } // 只定义了需要实现的内容 interface WordDoc { void print(); } // 工厂是接口的 interface AbstractFactory { HtmlDoc createHtml } // Fast厂家提供的实际的工厂来生产这两种产品 class FastFactory implements AbstractFactory { @Override public HtmlDoc } // Good厂家提供的实际的工厂来生产这两种产品 class GoodFactory implements AbstractFactory { @Override public HtmlDoc InterruptedException { AbstractFactory factory1 = AbstractFactory.createFactory("fast"); HtmlDoc

    35850发布于 2021-06-11
  • 来自专栏办公魔盒

    VBA 最简单的爬虫实列(静态网页HTML解析)

    For p = 1 To 5 ''解析html Dim xmldocstr As String: xmldocstr = 取得网页源码(p) Dim HTMLDoc As Object, TDElements As Object Set HTMLDoc = CreateObject("htmlfile") ''大致判断内容 If Len(xmldocstr) < 100 Then Exit Sub HTMLDoc.body.innerhtml = xmldocstr ''定位html表格 Set TDElements = HTMLDoc.getElementById("list") Dim infotb As Object Set infotb = TDElements.Children

    4K20发布于 2021-11-02
  • 来自专栏小徐学爬虫

    C#编写HttpClient爬虫程序示例

    htmlContent = await response.Content.ReadAsStringAsync(); // 解析HTML内容 var htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(htmlContent);​ // 示例:提取所有链接 foreach (HtmlNode link in htmlDoc.DocumentNode.SelectNodes("//a[@href]")) { Console.WriteLine($"发现链接: {hrefValue}"); }​ // 示例:提取页面标题 string pageTitle = htmlDoc.DocumentNode.SelectSingleNode

    56310编辑于 2025-04-07
  • 来自专栏王磊的博客

    Net处理html页面元素工具类(HtmlAgilityPack.dll)的使用

    webClient.Headers.Add("Host", "www.cnblogs.com"); // 获取html元素(htmlContext为html页面字符串) HtmlDocument htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(htmlContext); // 加载html页面 HtmlNode navNode = htmlDoc.GetElementbyId

    1.7K60发布于 2018-04-26
  • 来自专栏Go工具箱

    「Go开源包」Geziyor:一个高性能的网络爬虫框架

    ParseFunc: quotesParse, }).Start() } func quotesParse(g *geziyor.Geziyor, r *client.Response) { r.HTMLDoc.Find "author": s.Find("small.author").Text(), } fmt.Printf("debug-s:%+v\n", s) }) if href, ok := r.HTMLDoc.Find export.Exporter{&export.JSON{}}, }).Start() } func quotesParse(g *geziyor.Geziyor, r *client.Response) { r.HTMLDoc.Find "author": s.Find("small.author").Text(), } fmt.Printf("debug-s:%+v\n", s) }) if href, ok := r.HTMLDoc.Find

    72120编辑于 2023-08-28
  • 来自专栏小徐学爬虫

    Kotlin库实现多线程爬取数据

    Result(val name: String, val threads: Int)fun main() { val url = URL("example/python-threads") val htmlDoc = html(url) val results = htmlDoc.select("table tr td a").map { it.asHtml().text() } val proxyHost

    36730编辑于 2023-11-10
  • 来自专栏办公魔盒

    VB.NET 用HtmlAgilityPack解析百度文库,获取百度文库中的内容(以富甲美国为例)

    OverrideEncoding = Encoding.Default, .AutoDetectEncoding = True } Dim htmldoc As HtmlDocument = wc.Load(url) Dim rootNode As HtmlNode = htmldoc.DocumentNode

    1K10发布于 2019-07-22
  • 来自专栏爬虫资料

    提升编码技能:学习如何使用 C# 和 Fizzler 获取特价机票

    var pageHtml = await response.Content.ReadAsStringAsync(); // 解析HTML内容 var htmlDoc = new HtmlDocument(); htmlDoc.LoadHtml(pageHtml); // 使用Fizzler选择器提取特价机票信息 var offers = htmlDoc.DocumentNode.QuerySelectorAll(".offer"); // 使用正确的CSS选择器 foreach (var

    71510编辑于 2024-04-28
  • 来自专栏aardio

    aardio 网络数据采集

    web.view; var wb = web.view(winform); wb.go(urls[i]) var html = wb.html; var htmlDoc = string.html(html) var doc = htmlDoc.queryEles( tagName = "div" ); var h2 = doc[1].queryEles

    28200编辑于 2025-06-24
  • 来自专栏桑榆肖物

    聊一聊.NET的网页抓取和编码转换

    response = await client.GetAsync(url); var bytes = await response.Content.ReadAsByteArrayAsync(); var htmldoc = Encoding.UTF8.GetString(bytes); var match = Regex.Match(htmldoc, "<meta.*? CharSet; if (string.IsNullOrEmpty(charset)) { // 从网页获取编码信息 var htmldoc = Encoding.UTF8 .GetString(bytes); var match = Regex.Match(htmldoc, "<meta.*?

    63530编辑于 2023-08-22
  • 来自专栏aardio

    aardio 网页简单爬虫

    inet.http();var data,err,errCode = http.get( "https://www.example.com");if( http.statusCode ==200 ){    var htmlDoc  = string.html(data)    var doc = htmlDoc.queryEles( tagName = "body" );    var links = doc[1].queryEle

    31810编辑于 2025-06-17
  • 来自专栏王磊的博客

    LangChain4j如何自定义文档转换器实现数据清洗?

    list.add(this.transform(document)); }); return list; } } 调用文档转换器 Document htmlDoc DocumentTransformer transformer = new HtmlToTextDocumentTransformer(); Document cleanedDoc = transformer.transform(htmlDoc

    39410编辑于 2025-05-13
  • 来自专栏前端javascript

    vue3+echarts应用——深度遍历html的dom结构并用树图进行可视化

    {data:htmlContent}=await axios.get(htmlHref) console.log('htmlContent',htmlContent) const htmlDoc = getHtmlDoc(htmlContent) const treeData=traverse(htmlDoc.body) console.log('treeData',treeData

    81410编辑于 2024-02-17
  • 来自专栏自学测试之道

    python之把HTML文件转换成PDF格式文档

    占用的空间更小 -h, --help 显示帮助信息 --htmldoc 输出程序的html帮助文档 --image-dpi当页面中有内嵌的图片时, 会下载此命令行参数指定尺寸的图片(默认值是 600

    3K20发布于 2019-09-29
  • 来自专栏编程技术向北,人生删除指南

    手把手教你用.NET Core写爬虫

    存储了当期所有的电影数据 Task.Factory.StartNew(()=> { try { //通过URL获取HTML var htmlDoc HTTPHelper.GetHTMLByURL("http://www.dy2018.com/"); //HTML 解析成 IDocument var dom = htmlParser.Parse(htmlDoc

    2.4K120发布于 2018-05-23
  • 来自专栏云计算与大数据

    vim | 配置我的linux 开发环境

    https://www.ruanyifeng.com/blog/2018/09/vimrc.html http://vimdoc.sourceforge.net/htmldoc/options.html

    2.2K30发布于 2021-04-22
  • 来自专栏编程技术向北,人生删除指南

    手把手教你用.NET Core写爬虫

    )=> { try { //通过URL获取HTML var htmlDoc www.dy2018.com/"); //HTML 解析成 IDocument var dom = htmlParser.Parse(htmlDoc

    1.6K20发布于 2018-06-19
  • 来自专栏锦小年的博客

    linux服务器搭建之路15-常用医学图像处理软件的安装

    afni.nimh.nih.gov/pub/dist/tgz/linux_centos_7_64.tgz 其他版本下载: https://afni.nimh.nih.gov/pub/dist/doc/htmldoc

    2.5K41发布于 2019-05-26
  • 来自专栏小徐学爬虫

    Nim开发高性能低成本爬虫的完整教程

    ..REQUEST_DELAY*3))​# 高效 HTML 解析proc parseHtml(content: string): seq[string] = var doc: myhtml.htmlDoc

    39310编辑于 2025-08-06
  • 来自专栏信数据得永生

    django 1.8 官方文档翻译: 3-5-2 使用Django输出PDF

    HTMLdoc是一个命令行脚本,它可以把HTML转换为PDF。它并没有Python接口,但是你可以使用system 或者 popen,在控制台中使用它,然后再Python中取回输出。

    1.6K40编辑于 2022-11-27
领券