C++ 提取网页内容系列之三

C++ 提取网页内容系列之三
标题: C++ 提取网页内容系列
作者: itdef
链接: http://www.cnblogs.com/itdef/p/4171659.html

欢迎转帖请保持文本完整并注明出处

这次继续下载网页后对其中内容的分析

使用tr1(c++预备标准库)中的正则式
```
void ContentSearchMainRecommend(const string& content)
{
	string text = content;
	string regString( "首页大推','([^']*)'" );
	string regSubString("<strong class=\"strong color_orange\">([^<]*)</strong>");
	regex regExpress(regString);
	regex regSubExpress(regSubString);


	//string::size_type pos = content.find(strSearch);
	smatch ms;

	// 判断是否全行匹配
	while(regex_search(text, ms, regExpress))
	{
		string strResult;
		if(ms.size() == 2)
		{
			strResult = ms.str(1).c_str();
		}
		cout << "首页大推:\t" << strResult  << "\t\t";
		text = ms.suffix().str();
		if(regex_search(text, ms, regSubExpress))
		{
			if(ms.size() == 2)
			{
				cout << ms.str(1).c_str() << endl;
			}
		}else
		{
			cout << "search substring error" << endl;
			break;
		}
	}
	return ;
}
```
正则式的内容如果不熟悉的话可以参考网络上流传的<30分钟正则式入门>

但是对于450K的网页使用正则式匹配似乎比直接搜索要慢上不少

// 待续
作者: itdef
欢迎转帖请保持文本完整并注明出处
技术博客 http://www.cnblogs.com/itdef/
B站算法视频题解
https://space.bilibili.com/18508846
qq 151435887
gitee https://gitee.com/def/
欢迎c c++ 算法爱好者 windows驱动爱好者服务器程序员沟通交流
如果觉得不错，欢迎点赞，你的鼓励就是我的动力
相关阅读:
并发容器梳理
 CAS总结
 原子类总结and-Git提交出现error: src refspec master does not match any的问题
 简单工厂模式小结
 JVM学习与问题总结——java内存区域与内存溢出异常
 反射机制学习记录
 观察者模式
 IDEA的一些常用设置
 建造者模式
 【[AH2017/HNOI2017]礼物】
原文地址：https://www.cnblogs.com/itdef/p/4171659.html