- 大数据环境下的机器学习
三种误解:模型不再重要(大量数据上复杂模型依然提升显著,大数据是的复杂模型充分利用数据且难以过拟合),相关性就足够了(因果关系重要性无法被替代),以前的研究方向不再重要(高性能计算和存储依然重要)
机遇和挑战:只过目一遍数据的学习,高度可解释的模型,低质量样本集上的学习
- 大数据挖掘和研究
天文信息学的产生,应对数据分布偏移,流式学习,可扩展可迁移的学习,即便略微损失预测精度业界更认可简单模型,集成多种数据统一特征表示的学习,社交行为理解
数据->知识->发现->行动:不仅仅补充根据现有假设的研究而是从数据中发现新现象新设想,众多大企业生产力因数据分析显著收益,卫生领域使用NLP技术分析客户的情感和满意度
机遇和挑战:拥有领域知识的关键性,提出有深度和普遍的问题,考虑新增数据源带来的收益(即使是简单算法),计算平台架构的演进,对数据中问题和局限性的理解
- 大数据的全局最优化
进化算法
复杂系统的全局最优化:非线性关系的多决策变量、互相冲突的多目标,优化目标过多导致太多Pareto最优解、很难求解,评估解的质量大量消耗算力,实时优化问题,稳定和快速调整解决方案,优化过程中提取知识
机遇和挑战:集成各种学习范式和优化的技术,形式化问题的更好方法,渐进学习、简化优化问题,高维可视化
- 大数据环境下的产业、政府和社会
分解大数据:隐私和安全问题
分解成子模型:集成大量异质模型(即使小模型对应假设子空间有重叠)
实时在线分析:在线增量学习
极端数据分布-隐私和所有权:Wikileaks,在个人设备上计算,将个体上的计算集成的学习
机遇和挑战:识别有共同行为的群体、个体层次的建模,实时自主学习、为自主目标的学习