ASP.NET视频采集站核心技术分析(附送对付搜索引擎蜘蛛的贱招)

很多站长都是从做“垃圾站”起家了。什么是“垃圾站”？说白了就是采集别人的数据存入自己的数据库，加以聚合、整理、归类，或增加自己的一些小修改，然后自己做一个节目，成为自己的网站。一直以来最流行的“垃圾站”多是文章内的，因为文章内比较容易采集，而且数据量大，有利于搜索引擎。前两三年开始有人做视频采集站，甚至还有了一些很完善的视频采集系统（如马克思CMS，非常专业），也让一些站长发了一笔横财。可是随着用马克思的人越来越多，越晚开始做的站就越没搞头了，呵呵。解决方法其实也简单，就是趁现在视频采集站还不够泛滥，自己写视频采集站，不用别人做的通用系统，只需要稍微做一点SEO，搜索引擎就会照顾你咯～ o(∩_∩)o。

下面以采集土豆为例，谈谈如何以最简单粗暴的方式采集视频。

成功案例：http://www.kangxiyoulaile.com/( 康熙又来了）

自从Youtube出来之后，视频采集站就根本不需要采集视频了——它只需要采集Flash播放器参数即可。

比如以下这个视频，我们只需要采集到它的参数“K1hf2uocE1Y”就可以了。当然，为了显得更专业，我们还要采集视频的相关信息，比如视频名字、视频时长、观看次数、网友评论、内容简介等等，这都是举一反三的事了，^_^，通通都存入我们自己的数据库中！

既然是做垃圾站，那么一定要有自己的分类。我们就把这作为起点吧！用土豆搜索功能！

搜索“康熙来了”+日期，就可以得到某日期内的“康熙来了”节目，如“康熙来了20090720”，我们就来到了http://so.tudou.com/isearch.do?kw=%BF%B5%CE%F5%C0%B4%C1%CB20090720

明白了吧？我们定期让程序打开http://so.tudou.com/isearch.do?kw=%BF%B5%CE%F5%C0%B4%C1%CB + ‘当前日期’ 就可以了达到自动采集的效果了。

如何用ASP.NET获取HTML呢？这是一个没有技术含量的问题。我们直接给代码。

/// <summary>
/// 获取网页内容
/// </summary>
/// <param name="url"></param>
/// <returns></returns>
public static string GetHtml(string url)
{
string result = "";
try
{
WebRequest request = WebRequest.Create(url);
WebResponse response = request.GetResponse();
StreamReader reader = new StreamReader(response.GetResponseStream(), Encoding.GetEncoding("GBK"));
result = reader.ReadToEnd();
}
catch
{
result = "";
}
return result;
}

接下来，我们分析得到的HTML。现在这个年代，大家都采用div+css，这也让我们的采集变得很容易。嘿嘿，仔细想想，土豆在采用div+css来做界面的时候，肯定会为每一个“节目”单独做一个css的class吧？嗯，这就对了！分析源文件后，果然，我们发现在搜索节目列表中，每一个节目都采用了“pack pack_video_card”这个css的class。

我们应该怎么做呢？将整个源文件作为一个字符串，然后以“<div class="pack pack_video_card">” 作为分隔符，将字符串切割到一个字符串数组中。这样，在得到的字符串数组中，除了第一个字符串不是视频以外，其他的每一个字符串都包含我们需要的视频信息！

代码如下：

string[] list=html.Split(new string[]{"<div class=\"pack pack_video_card\">"},StringSplitOptions.RemoveEmptyEntries);

加一些简单的控制条件，然后从每一个字符串片段中提取信息放入类里。

如采集视频缩略图：

           foreach (string s in list)
{

               begin = s.IndexOf("src")+5;
end = s.IndexOf("</a>")-4;
v.ImgUrl = s.Substring(begin, end - begin + 1);

…………

}

有了这样的基础，就可以进一步封装成一些函数，便于快速采集了。如：

/// <summary>
/// 获取两个日期段之间的所有视频实体
/// </summary>
/// <param name="beginDate"></param>
/// <param name="endDate"></param>
/// <param name="everydayMax">每天的最大视频数</param>
/// <returns></returns>
public static List<Video> GetVideoByDate(DateTime beginDate, DateTime endDate,int everydayMax)
{
ByDateVideoList = new List<Video>();
DateTime dt = beginDate;
    while (dt <= endDate)
{
ByDateVideoList.AddRange(GetTopVideo(GetTudouString(dt.ToString("yyyyMMdd")),everydayMax));
dt = dt.AddDays(1);
}
return ByDateVideoList;
}

还有一个小细节。土豆网采用的是GBK编码，我们如果也采用GBK编码，搜索引擎就会发现重复数据太大，所以我们必须要修改编码。假设我们的网站使用UTF8编码，如何将采集到的GBK编码数据转换成UTF8进行展示呢? 参考以下函数：

public static string ConvertEncoding(Encoding oldEncoding, Encoding newEncoding, string oldString)
{
byte[] oldBytes = oldEncoding.GetBytes(oldString);
byte[] newsBytes = Encoding.Convert(oldEncoding, newEncoding, oldBytes);
char[] newChars = new char[newEncoding.GetCharCount(newsBytes, 0, newsBytes.Length)];
newEncoding.GetChars(newsBytes, 0, newsBytes.Length, newChars, 0);
string newString = new string(newChars);
return newString;
}

     最后，很重要了！做一个简单的URL Rewrite，方便搜索引擎搜录。按照Google排PR的原则，离根目录越近、地址越短、get参数越少的地址更容易收录并靠前。

我们可以这样来做，在Global.asax.cs里这样写

  protected void Application_BeginRequest(object sender, EventArgs e)

        {

            robot();



            string Id = Request.Path.Substring(Request.Path.LastIndexOf('/') + 1);

            if (Id.Length==16)

            {

                Server.Transfer("~/V.aspx?Id=" + Id.Substring(0,11));

            }

        }

     这样，原本是 http://www.kangxiyoulaile.com/v.aspx?id=3IPFQqeKtKc 的地址就可以通过

http://www.kangxiyoulaile.com/3IPFQqeKtKc.aspx  来访问。把网站上所有带参数形式的内部链接都改成后者，就可以瞒过搜索引擎了。

    我们还可以贱一点，做一些针对搜索引擎的优化。例如以下代码是判断搜索引擎蜘蛛访问的。我们大可以在判断到访问者是搜索引擎蜘蛛之后，对页面数据做一些更改。。嘿嘿。。由于这招太贱了，以下不演示具体细节。稍微改改下面的代码你就可以……

  /// <summary>

        /// 判断蜘蛛是否来过

        /// </summary>

        /// <returns></returns>

        protected bool robot()

        {

            bool brtn = false;

            string king_robots = "mailto:Baiduspider+@Baidu%7CGooglebot@Google%7Cia_archiver@Alexa%7CIAArchiver@Alexa%7CASPSeek@ASPSeek%7CYahooSeeker@Yahoo%7Csohu-search@Sohu%7Chelp.yahoo.com/help/us/ysearch/slurp@Yahoo%7Csohu-search@SOHU%7CMSNBOT@MSN";

            string ls_spr;
            ls_spr = Request.ServerVariables["http_user_agent"].ToString();

            char[] delimiterChars = { '|' };

            char[] x = { '@' };

            string[] I1 = king_robots.Split(delimiterChars);
            for (int i = 0; i < I1.Length; i++)

            {

                string[] spider = I1[i].Split(x);

                if (ls_spr.IndexOf(spider[0].ToString()) > -1)

                {

                    brtn = true;

                    logrobots(spider[1].ToString()+"|"+Request.Path+"|");

                    break;

                }

            }

            return brtn;

        }

     好了！关键的技术都分析完了，我们点到为止吧，靠大家自己了！o(∩_∩)o

相关阅读:
Web 日志分析过程
 nginx系列之九：lua服务
 Linux网络编程之IO模型
 从URL输入到页面展现到底发生什么
 CentOS 日常运维十大技能
 以MySQL为例，详解数据库索引原理(1)
Elasticsearch的特点以及应用场景
 Ubuntu1804编译安装LNMP
golang 高级
 Centos7 安装 Redis
原文地址：https://www.cnblogs.com/azure/p/KangXiLaiLe_CAIJI_TUDOU_KANGXIYOULAILE_DEMO.html