• 爬虫大作业


    1.选一个自己感兴趣的主题或网站。(所有同学不能雷同)

    import requests
    from bs4 import BeautifulSoup as bs
    import re


    path = 'C:\Users\Jie\Desktop\'
    url = "https://www.imooc.com/learn/982"
    header = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36'}
    html = requests.get(url,headers=header).content.decode('utf-8')
    soup = bs(html, 'html.parser')
    con = soup.select('.content')[0].get_text()
    info = re.sub('s+', '', con)
    f = open(path + 'yanjie.txt' ,'a+', encoding='utf-8')
    f.write(info)
    f.close()

    import jieba
    import PIL
    from wordcloud import WordCloud
    import matplotlib.pyplot as p
    import os


    path = 'C:\Users\Jie\Desktop\'
    info = open(path+'yanjie.txt','r',encoding='utf-8').read()
    text = ''
    text += ' '.join(jieba.lcut(info))
    wc = WordCloud(font_path='C:WindowsFontsSTZHONGS.TTF',background_color='White',max_words=50)
    wc.generate_from_text(text)
    p.imshow(wc)
    p.axis("off")
    p.show()
    wc.to_file(path+'xyj.jpg')

    2.用python 编写爬虫程序,从网络上爬取相关主题的数据。

    3.对爬了的数据进行文本分析,生成词云。

    4.对文本分析结果进行解释说明。

    5.写一篇完整的博客,描述上述实现过程、遇到的问题及解决办法、数据分析思想及结论。

    6.最后提交爬取的全部数据、爬虫及数据分析源代码。

    结果:

    简介:Golang作为21世纪的C语言,凭借其简单和高效,如今已经被越来越多的人当成主力编程语言,并发是Golang最大的优势,本门课程将带你一起去探索Golang并发的奥秘,除此之外,你还能学到Golang的面向对象,最终实现一个可在生产环境使用的高性能的日志监控系统。相信完成这门课程之后,你一定也会爱上Golang这门语言!1章课程介绍简单演示了日志监控程序的功能,然后介绍了一些关于并发编程的基础知识,以及在Golang中并发编程的实现,为后续课程做好知识储备。1-1课程介绍(09:05)开始学习1-2常见并发模型讲解(05:18)开始学习1-3并发拓展:并发与并行(07:17)开始学习1-4golang中的面向对象(03:29)开始学习2章日志监控程序的实现本章节讲解系统的架构设计和编码实现,将复杂的业务逻辑拆分成多个独立执行的模块,使用并发的思想来提升程序的执行效率,同时也涉及到各种新包的使用。课程中还讲解了grafana和influxdb的配置使用。2-1日志分析系统实战(11:12)开始学习2-2代码优化(10:45)开始学习2-3读取模块实现(09:35)开始学习2-4解析模块的实现(19:57)开始学习2-5写入模块流程讲解(05:52)开始学习2-6写入模块具体实现(11:37)开始学习2-7监控图的绘制(05:28)开始学习2-8运行状况监控(14:09)开始学习3章课程总结总结整个课程所涉及到的编程知识点,主要包括goroutine和channel的使用。串讲了整个日志监控程序实现的关键点,以及并发程序的设计思路。3-1细节优化及课程总结(04:51)开始学习

  • 相关阅读:
    转 闭包简单理解
    mac 利用 sshpass 自动登录
    阮一峰 IaaS,PaaS,SaaS 的区别
    YMP运行初始化步骤
    强烈推荐 在线接口文档管理工具 小幺鸡 小团队可以省掉测试了
    springboot JSP 404
    并发测试 JavaDemo
    JS刷新当前页面的几种方法总结
    jquery checkbox勾选/取消勾选只能操作一次的诡异问题
    微信网页 第三方登录原理详解(转)
  • 原文地址:https://www.cnblogs.com/a305810827/p/8932674.html
Copyright © 2020-2023  润新知