C#反爬虫之爬取未加载js的html

转自：C# 写个小爬虫，实现爬取js加载后的网页_zjl1353911的博客-CSDN博客_c#实现爬虫

有个业务是爬取网页中的某一组数

查看页面源代码时发现是一堆未加载的html,有两种办法可以获取，一个是在茫茫代码中拼接获取数据的接口，另一个是用第三方的库加载获得数据；这里用的是后者：

第一：安装第三方组件：

注意中间这个库的版本要求;

用法:

public static string GetWebHtmlManage(string url)
        {
            PhantomJSDriverService driverService = PhantomJSDriverService.CreateDefaultService();
            driverService.IgnoreSslErrors = true;
            ChromeOptions options = new ChromeOptions();
            options.AddArgument("--headless");
            options.AddArgument("--nogpu");
            List<String> tagNmaeList = new List<string>();
            using (driver = new ChromeDriver(options))
            {
                try
                {
                    driver.Manage().Window.Maximize();
                    driver.Navigate().GoToUrl(url);
                    Thread.Sleep(5000);
                    var docStr = driver.PageSource;
                    return docStr;
                }
                catch (NoSuchElementException ex)
                {
                    throw ex;
                }
            }
        }

View Code

获取的是字符串类型的Html，可用解析Html的组件转为Html文档再解析；

结果：

相关阅读:
完整的验证码识别流程基于svm（若是想提升，可优化）
linux离线搭建Python环境及安装numpy、pandas
帮助维度理解
遇到eclipse安装插件一直报错问题（版本问题）
雷林鹏分享：Java 集合框架
雷林鹏分享：Java 数据结构
雷林鹏分享：Java 包(package)
雷林鹏分享：Java 接口
雷林鹏分享：Java 封装
雷林鹏分享：Java 抽象类

原文地址：https://www.cnblogs.com/jf-ace/p/15318624.html