在线伪原创工具www.bolewei.com的开发过程

前言：

　　百度百科上伪原创的定义是“所谓伪原创就是把一篇文章进行再加工，使其让搜索引擎认为是一篇原创文章，从而提高网站权重”。其实对于程序猿来说，伪原创就是“对文章进行大量的同义词替换”。

　　做SEO的朋友——尤其是黑帽SEO的朋友——一定知道，伪原创对于搜索引擎优化至关重要。英文的伪原创称为“Spin”，成熟的英文伪原创工具有TBS、Spinnerchief等等，TBS的售价还挺贵。而成熟、靠谱中文伪原创工具，却一直罕有。在百度搜索“中文伪原创”，首页的几个工具我都试过了，效果差强人意。

　　于是我开发了伯乐伪原创，http://www.bolewei.com/ ，有兴趣的朋友可以先体验。（但必须说明的是，这只是测试版本，离正式版还很遥远哦 O(∩_∩)O哈哈~）

中文伪原创工具需要考虑的问题

　　我开始思考，目前已有的中文伪原创工具，效果差在哪些地方呢？我想到以下几个：

　　一、分词问题。

　　中文和英文不同，无论是搜索引擎的蜘蛛，还是其他自然语言处理的语料分析，都是需要分词的。如果不先进行分词的预处理就开始“伪原创”，肯定是不靠谱。举个例子：“天真”和“纯洁”是近义词。在不分词的情况下，“我有一个天真的表妹”仍然可以伪原创为“我有个纯洁的妹妹”，但“今天真热”处理为“今纯洁热”就是严重不靠谱。

　　二、顺序执行引发的单一化。

　　无论是网上流行的中文伪原创词库，还是现成的中文伪原创工具，我都试过了，他们的词库格式如下：

　　普通的算法是按照顺序依次替换，那么，如图所示，“凡间”的同义词原本有“尘寰”“尘间”“尘世”三个，但它永远不会被替换成后两个词。

　　最最理想的状态是能够根据语境，替换为合适的词。例如“天真”的同义词有“无邪 ”“纯真 ”“纯洁 ”“纯朴”等等，并非每个词在所有语境下都能够完全替换。当然，结合语境是高级自然语言处理的范畴，简单得伪原创能达到次理想状态就算OK：遇到多个同义词的情况，随机替换其中的一个。

　　三、词库打架的问题

　　我下载了网上流传的大部分词库，收费的、免费的，都尝试了。发现没有人去解决词库打架问题。

　　什么叫做“词库打架问题”？很简单，看这两组词。

　　顺序执行替换后，会发现文字兜了一个圈回到了原点……这显然不是我们想要的，但，这个问题在现有的词库、伪原创工具中，非常非常普遍。

　　四、可读性太差

　　为什么会可读性太差？因为现有的中文伪原创工具，都是通篇全部替换。如果词库里有10万组同义词，程序会遍历一次，把原文中所有能够替换的字符串“榨干”。这样一来虽然伪原创成功了，但可读性无限趋近于零。让我们看这样一组例子：

伪原创后：

　　如果读者直接阅读伪原创后的文字，能够理解吗？

　　怎样解决这个问题呢，我想，可以设置一个百分比，或叫做伪原创等级。例如“轻微柔和适中猛烈变态面目全非魂飞魄散”七个等级。用户选择“轻柔”时，只替换100个可替换同义词中的随机10个，选择“适中”中，替换100个可替换同义词中的随机50个，以此类推。这样就可以让用户自己在“可读性”“原创度”之前自由权衡。

我心中的完美中文伪原创工具

功能模块	功能说明	技术实现
智能分词	避免“今天真热”变成“今纯洁热”的问题。	可以调用现有的中文分词开源组件。
随机性	既便是同一篇文章，每次进行伪原创的结果都不一样。	引入随机取词条。
伪原创力度调节	定义伪原创的百分比，让用户在“可读性”和“原创度”之间自由权衡。	引入等级设置、随机取词条。
词库不要打架	避免或降低“发誓”被替换为“立誓”后又被替换回“发誓”的情况发生。	放弃顺序执行。
统计	统计伪原创后替换了多少词	替换时插入标记
标记	标记被替换的词，方便查看、校对	替换时插入标记

核心程序实现

　　考虑以上提到的很多方面的问题，程序还是比较长，接近一万行。下面我只列几段核心的代码供大家参考、讨论。

　　一、分词。

　　分词其实很容易，因为有很懂开源组件可以使用。我最喜欢的是SCWS。官网地址是http://www.ftphp.com/scws/

　　SCWS本来是PHP中文分词解决方案，但它提供了API，我们C#程序猿也可以毫无压力的调用。

View Code

public static string Segment(string str)
   {
      System.Text.StringBuilder sb = new System.Text.StringBuilder();
       try
       {
           string s = string.Empty;
           System.Net.CookieContainer cookieContainer = new System.Net.CookieContainer();
           // 将提交的字符串数据转换成字节数组
           byte[] postData = System.Text.Encoding.ASCII.GetBytes("data=" + System.Web.HttpUtility.UrlEncode(str) + "&respond=json&charset=utf8&ignore=yes&duality=no&traditional=no&multi=0");

           // 设置提交的相关参数
           System.Net.HttpWebRequest request = System.Net.WebRequest.Create("http://www.ftphp.com/scws/api.php") as System.Net.HttpWebRequest;
           request.Method = "POST";
           request.KeepAlive = false;
           request.ContentType = "application/x-www-form-urlencoded";
           request.CookieContainer = cookieContainer;
           request.ContentLength = postData.Length;

           // 提交请求数据
           System.IO.Stream outputStream = request.GetRequestStream();
           outputStream.Write(postData, 0, postData.Length);
           outputStream.Close();

           // 接收返回的页面
           System.Net.HttpWebResponse response = request.GetResponse() as System.Net.HttpWebResponse;
           System.IO.Stream responseStream = response.GetResponseStream();
           System.IO.StreamReader reader = new System.IO.StreamReader(responseStream, System.Text.Encoding.GetEncoding("utf-8"));
           string val = reader.ReadToEnd();

           Newtonsoft.Json.Linq.JObject results = Newtonsoft.Json.Linq.JObject.Parse(val);
           foreach (var item in results["words"].Children())
           {
               Newtonsoft.Json.Linq.JObject word = Newtonsoft.Json.Linq.JObject.Parse(item.ToString());
               sb.Append(word["word"].ToString() + " ");
           }
       }
       catch
       {
       }

       return sb.ToString();
   }

　　二、解决词库打架问题。

　　这没什么好说的。程序也只有一句话。

　　三、根据百分比，随机取x条记录。

　　取随机记录，最方便的是Mysql数据库，内置的rand()函数可以在select中使用。如果使用SQL Server稍微麻烦些，效率也会低一些。

　　参考http://www.rndblog.com/how-to-select-random-rows-in-mysql/

　　四、替换同义词主函数。

请看代码里的注释。

public string ReplaceArticle(string old, int strength, bool markRed, ref int replacedcount)
 {

 string newArticle = old ;
 int wordsAmount = 180482;//词库总量

 int kwcount = Convert.ToInt32(strength * 1.0 / 100 * wordsAmount); //根据传入的百分比，计算需要取多少个词
 var dataset = SQLHelper.ExecuteDataset(SQLHelper.connectionString, System.Data.CommandType.Text, "select * from words order by rand() limit " + kwcount);//随机取kwcount组词

 foreach (DataRow r in dataset.Tables[0].Rows)
 {
 //随机。对于词典中A->B的词组。随机决定本次替换是Replace(A,B)还是Replace(B,A)
 int i = new Random().Next(0, 1);
 newArticle = newArticle.Replace(r[i].ToString()
 , string.Format("{0}", r[1 - i].ToString()));
 }

 //数被替换的词。
 replacedcount = newArticle.Split(new string[] { "" }, StringSplitOptions.None).Length - 1;
 if (!markRed)
 {
 //如果用户不要求标记，则去掉标记。
 newArticle = newArticle.Replace("", string.Empty).Replace("", string.Empty);
 }

 return newArticle;
 }

最终程序界面

最后

　　如前文所说，中文伪原创几乎是一片空白。希望本文能够启到抛砖引玉的作用，更希望有兴趣的同学能够与我一起继续不断的完善、改进它。

伯乐伪原创 http://www.bolewei.com/

相关阅读:
luogu1803 凌乱的yyy / 线段覆盖
luogu1051 谁拿了最多奖学金
luogu1208 [USACO1.3]混合牛奶 Mixing Milk
luogu1090合并果子
Lab 1 : Part 1 exercise 2
动态规划(DP)笔记(三)：常见普通题型
leetcode 213. 打家劫舍II: 动态规划(c++)
动态规划(DP)笔记(二): 序列型及简单例题
Lab1: Booting a PC
动态规划(DP)笔记(一): 简介

原文地址：https://www.cnblogs.com/azure/p/bolewei.html