• 2月4日学习记录


    1,背诵单词:elevator:电梯   feature:特征   handsome:英俊的   empire:帝国   mate:伙伴,同事   fiction:小说   lip:嘴唇   election:当选   lifetime:一生,寿命

      govern:统治   expectation:期待   lay:放置   towel:毛巾   transparent:透明的   reality:现实  recognize:认出   temptation:诱惑   typical:典型的   submarine:潜艇

    2,学习spark视频:https://www.bilibili.com/video/av62881491      第50到58集

     新添内容到博客:https://www.cnblogs.com/lq13035130506/p/12239342.html 

      2,操作RDD:

        只有到动作类型操作才会进行计算,转换类型操作只会记录

        

        

         

       3,RDD持久化

         每遇到一次动作操作就会从头到尾计算一次RDD,生成一个job;如果需要前一次的动作操作生成的值,则需要将生成的值缓存

        RDD持久化方法:调用.persist()方法对一个RDD标记为持久化,但不会真正持久化;等遇到下一次动作操作就会真正持久化

        会将值存入内存;当内存不足,则替换之前内存存的值 

        RDD.persist(MEMORY_ONLY)<=>RDD.cache()

         将值存入内存,当内存不足,会将存不下的值存入磁盘

       4,RDD分区:增加程序的并行度实现分布式的计算;减少通信开销;与hdfs的分块不一样

          分区原则:

          

           默认分区命令:如果设置local【n】,则分区为n;Apache  Mesos模式会默认设置分区为8;standalone和yarn模式设置时,当集群中所有CPU数为n;与另一个?(是什么)比较,值最大的设置为分区数

          

          

       3,键值对RDD:

          

    3,遇到的问题:学习RDD分区操作,听得不太懂

    4,明天计划继续学习Spark和学习爬取动态数据

  • 相关阅读:
    jmeter--同步定时器
    手机配置jmete器
    jmeter---http授权管理器
    jmeter---http信息头管理器
    mysql---聚合函数
    jmeter---BeanSheel提取数组
    简述MYSQL的优化
    java常用设计模式
    什么是java序列化,如何实现java序列化?或者请解释Serializable接口的作用?
    String s = new String("xyz");创建了几个String Object? 二者之间有什么区别?
  • 原文地址:https://www.cnblogs.com/lq13035130506/p/12261996.html
Copyright © 2020-2023  润新知