本周主要对正则表达式的用法进行了实际的训练,同时继续完善自己的字符串处理类。添加了一些形如:将字符串容器中所含有的的空字符串进行替换成空值,将字符串容器中的空字符串进行删除,还有获取一段字符串中的含有正则表达式的所有字符串并返回一个字符串容器并对其里面含有的空字符串进行替换成空值,还有获取一段字符串中的含有正则表达式的所有字符串并返回一个字符串容器并对其里面含有的空字符串进行删除...等一系列的更新。
形如利用htmlunit登录后保持登录状态进行爬虫的练习,拓展到用java原生类进行登录模拟后爬取相关需要登录的数据。这部分的应用是,之前在安卓平台上想尝试直接用登录状态爬取某个网页的时候,遇到了一个问题,就是安卓中无法使用htmlunit模块对网页进行爬取,百度得出的原因是android并不支持javax。因此,为了解决这个问题,在本周首先对正则表达式的位置匹配进行了一次练习之后,完成字符串相关的处理类的编写一个利用原生类在安卓上模拟登陆网站并对网页进行一个爬取的功能,以便并将爬取后的信息显示到相应的应用上这个功能,现在已经能够实现。
这个想法是受到qq空间对应的好友说想要爬取B站上的弹幕的启发,以下是我自己实现的爬取B站上的某个视频的弹幕的运行结果: