• 大数据应用技术课程实践--选题与实践方案


    一、选题与意义

    1.Hadoop平台应用

    2.Kaggle分析数据项目

    简要说明理由与意义。

      本次实践选题为“2.Kaggle分析数据项目”。项目选取属个人兴趣以及能力擅长。

      数据集来源于Kaggle,对在Rotten Tomatoes(烂番茄电影评论)数据集上的情绪分析想法进行基准测试。要求按五个等级标记短语:消极,有点消极,中立,有点积极,积极。

    二、实践方案

    简要说明理由。

       在选取完数据集后,先对数据进行预处理等前期准备操作,采取word2vec进行词向量处理,接着选取LSTM模型,进行模型构建、训练、验证、测试等一系列操作。本次实验将会凸显LSTM模型的优势,因此会选择几个机器学习模型进行同样的分类处理作准确率比较。

    三、实践任务分解

    根据所选的题目,明确实验步骤,分解任务到每天。

       1.首先确定题目为Kaggle竞赛项目烂番茄,项目宗旨为分类电影评论中的几种情绪,其中包括消极,有点消极,中立,有点积极,积极。

      2.根据官方所给数据进行预处理(由于是英文,在文本处理方面与中文有所差距。)

      3.选择词向量。

      4.分类模型选取(此处将会考虑LSTM模型)

      5.模型构建、训练、测试

      6.预测分类模型的准确率

      7.将会做多种模型进行准确率比较。(朴素贝叶斯首选、SVM支持向量机)

    四、实践计划

    按任务分解撰写计划表,每天按计划表开展工作。

    第天根据实际情况更新计划表,有必要时调整。

    任务 6.23 6.24  6.28 6.30  7.1 7.2 7.3
    1、题目选择  √            
    2、数据预处理    √          
    3、词向量Word2Vec   √           
    4、 模型选择       √        
    5、构建LSTM模型      √        
    6、训练、验证模型      √        
    7、模型准确率预测        √      
    8、朴素贝叶斯模型(进行比较)        √      
    9、SVM支持向量机(进行比较)          √    
    10、答辩            √  
    11、文档集成与提交              √

    1.

    大数据平台安装软件:

    链接:https://pan.baidu.com/s/1lZM6BkZ6XoRE3uwepsQ_5A
    提取码:ao1m

    虚拟机镜像文件:

    链接:https://pan.baidu.com/s/1e0qak_9Uymn_R1HmSu5ZLw  
    提取码:q0lt

    2.

    https://www.kaggle.com/competitions

    说明:

    • 个人项目,不要求组队,确实需要组队的说明理由。
    • 边操作边记录;
    • 每天完成当天文档;
    • 最后综合成课程实践报告。
  • 相关阅读:
    看《你必须知道的.NET》有感工厂模式的另类解读
    学习笔记:PDO
    学习笔记:mysqli预处理和事务处理
    学习笔记:mysql
    学习笔记:基础+文件操作(上传|下载)+面向对象+xml
    学习笔记:php+mysql
    学习及求职心得|PHP学习心得|IT从业者的几点体会
    flash做登录页传递值给asp.net,其他语言的也可以参照下
    rpm安装依赖问题
    让进程在后台可靠运行
  • 原文地址:https://www.cnblogs.com/xiaolan-Lin/p/13182910.html
Copyright © 2020-2023  润新知