前言
1、中文对照
2、开放的WEB API接口
del.icio.us
一个社会型书签应用系统,其开放的API允许你根据tag或者特定的用户来下载链接
Kayak
一个提供API的旅游网站,可以利用API在自己的程序中集成针对航班和旅馆的搜索
eBay
一个提供API的在线交易站点,允许查询当前正在出售的货品
Hot or Not
一个评分与交友的网站,提供API对人员进行搜索,并获取其评分及个人资料
Akismet
一个用于对协作型垃圾信息进行过滤的API
(先记录一下,后续在例子中进行确认,更多APIhttp://www.programmableweb.com/)
通过对来自单一源的数据进行处理,对来自多个源的数据进行组合,甚至通过将外部信息与自有系统的用户输入信息加以组合,可以构造出大量的潜在应用。对人们在不同网站以各种不同方式产生的数据加以充分利用的能力,便是构建集体智慧的一个基本要素。
3、基本结构
1、集体智慧导言
2、提供推荐
3、发现群组
4、搜索与排名:搜索引擎各个不同组成部分,爬虫(crawler)、索引程序(indexer)以及查询引擎(query engine)。PageRank算法,如何构建神经网络。
5、优化:最优解
6、文档过滤:贝叶斯过滤,例子RSS搜索结果
7、决策树建模:决策树
8、构建价格模型:数值预测问题而非分类问题,k-最近邻技术
9、高阶分类:核方法与SVM(支持向量机)
10、寻找独立特征:非负矩阵因式分解,例子通过新闻故事,寻找主题
11、智能进化:遗传编程
12、算法总结
第一章《集体智慧导言》
1、什么是集体智慧
为了从全无关系的一群人中搜集、组合和分析数据,可以得出关于群组的统计结论:族中的个体成员将会被忽视。从独立的数据提供者那里得出新的结论,是集体智慧所真正关注的。也就是通过许多个体的行为得出新结论或者新的规律,可能这么说比较明了。
*wikipedia:用户维护,被动
*Google:算法实现,主动
2、什么是机器学习
将一组数据传递给算法,并由算法推断出与这些数据的属性相关的信息——借助这些信息,算法能能够预测出未来有可能会出现的其他数据。
模型:通过训练获取
不同的机器学习算法各有所长,适用于不同类型的问题。
3、机器学习的局限
机器学习算法受限于其在大量模式之上的归纳能力,对于新模式可能会误解。需要人为修正,持续学习
4、真实生活中的例子
Google PageRank算法
推荐系统的WEB站点
市场预测
5、学习型算法的其他用途
生物工艺学:测序技术和筛选技术
金融欺诈侦测
机器视觉:图片解析、人脸识别、独立组元分析技术
产品市场化:聚类方法
供应链优化
股票市场分析
国家安全