• Big Data Opportunities and Challenges(by周志华)论文要点


    • 大数据环境下的机器学习

    三种误解:模型不再重要(大量数据上复杂模型依然提升显著,大数据是的复杂模型充分利用数据且难以过拟合),相关性就足够了(因果关系重要性无法被替代),以前的研究方向不再重要(高性能计算和存储依然重要)

    机遇和挑战:只过目一遍数据的学习,高度可解释的模型,低质量样本集上的学习

    • 大数据挖掘和研究

    天文信息学的产生,应对数据分布偏移,流式学习,可扩展可迁移的学习,即便略微损失预测精度业界更认可简单模型,集成多种数据统一特征表示的学习,社交行为理解

    数据->知识->发现->行动:不仅仅补充根据现有假设的研究而是从数据中发现新现象新设想,众多大企业生产力因数据分析显著收益,卫生领域使用NLP技术分析客户的情感和满意度

    机遇和挑战:拥有领域知识的关键性,提出有深度和普遍的问题,考虑新增数据源带来的收益(即使是简单算法),计算平台架构的演进,对数据中问题和局限性的理解

    • 大数据的全局最优化

    进化算法

    复杂系统的全局最优化:非线性关系的多决策变量、互相冲突的多目标,优化目标过多导致太多Pareto最优解、很难求解,评估解的质量大量消耗算力,实时优化问题,稳定和快速调整解决方案,优化过程中提取知识

    机遇和挑战:集成各种学习范式和优化的技术,形式化问题的更好方法,渐进学习、简化优化问题,高维可视化

    • 大数据环境下的产业、政府和社会

    分解大数据:隐私和安全问题

    分解成子模型:集成大量异质模型(即使小模型对应假设子空间有重叠)

    实时在线分析:在线增量学习

    极端数据分布-隐私和所有权:Wikileaks,在个人设备上计算,将个体上的计算集成的学习

    机遇和挑战:识别有共同行为的群体、个体层次的建模,实时自主学习、为自主目标的学习

  • 相关阅读:
    Elasticsearch嵌套聚合
    Elasticsearch+Logstash+Kibana教程
    《胡雪岩·灯火楼台》—— 读后总结
    Elasticsearch使用REST API实现全文检索
    Elasticsearch集群配置以及REST API使用
    《Node web开发》笔记
    我的第一个Node web程序
    Spring boot整合shiro权限管理
    SpringBoot 整合Shiro 一指禅
    SpringBoot,用200行代码完成一个一二级分布式缓存
  • 原文地址:https://www.cnblogs.com/yaoyaohust/p/9994365.html
Copyright © 2020-2023  润新知