采集的时候要注意,编码,如果编码一致,会导致匹配不了采集失败
<?php //采集的时候要注意编码一直,才能匹配想要的东西,要不会采集不到东西,主要还是需要用正则表达式 $con = file_get_contents("http://news.sina.com.cn/"); //可以先输出 //echo htmlspecialchars($con);exit; $preg='/<h1 data-client="headline"><a href="(.*)" target="_blank">(.*)<\/a><\/h1>/U'; preg_match_all($preg,$con,$arr); echo "<pre>"; //print_r($arr); echo "</pre>"; foreach($arr[1] as $id=>$v)
{ echo "<a href=show.php?url=$v>".$arr[2][$id]."</a>----来源:http://news.sina.com.cn/<br>"; } ?>