• 信息领域热词分类分析01


    1. 项目名称:信息化领域热词分类分析及解释
    2. 功能设计:
    1)
    数据采集:要求从定期自动从网络中爬取信息领域的相关热
    词;
    2)
    数据清洗:对热词信息进行数据清洗,并采用自动分类技术
    生成信息领域热词目录,;
    3)
    热词解释:针对每个热词名词自动添加中文解释(参照百度
    百科或维基百科);
    4)
    热词引用:并对近期引用热词的文章或新闻进行标记,生成
    超链接目录,用户可以点击访问;
    5)
    数据可视化展示:
    ① 用字符云或热词图进行可视化展示;
    ② 用关系图标识热词之间的紧密程度。6) 数据报告:可将所有热词目录和名词解释生成 WORD 版报告
    形式导出。
    近期做信息领域热词分类分析:
    目前已完成对数据的采集,
    爬取了博客园的最新新闻,来进行信息领域热词的分析。
    import requests
    from bs4 import BeautifulSoup
    import pymysql
    import json
    import lxml
    import xlwt
    def getTitle(url):
        response = requests.get(url, headers=headers)  # 发送网络请求
        content = response.content.decode('utf-8')
        soup = BeautifulSoup(content, 'html.parser')
        list=soup.select('div:nth-child(2) > h2:nth-child(1) > a:nth-child(1)')
        for i in range(18):
            print(list[i].text)
        return list
    url = "https://news.cnblogs.com/n/recommend?page={}"
    headers = {'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36'}#创建头部信息
    f = xlwt.Workbook(encoding='utf-8')
    ft=open("Hotword.txt", "w", encoding='utf-8') sheet01
    = f.add_sheet(u'sheet1', cell_overwrite_ok=True) sheet01.write(0, 0, '博客最热新闻') # 第一行第一列 temp = 0 for i in range(1,100): newurl = url.format(i) title = getTitle(newurl) for j in range(len(title)):
         ft.write(title[j].text +' ') sheet01.write(temp
    + j + 1, 0, title[j].text) temp += len(title) print(""+str(i)+"页打印完!") print("全部打印完!!!") f.save('Hotword02.xls')
    ft.close()

    明天继续完成其他方面的要求

    作者:哦心有
    本文版权归作者和博客园共有,欢迎转载,但必须给出原文链接,并保留此段声明,否则保留追究法律责任的权利。
  • 相关阅读:
    3. Image Structure and Generation
    STM32F103
    10.2 External interrupt/event controller (EXTI)
    10.1 Nested vectored interrupt controller (NVIC) 嵌套矢量中断控制器
    ibatis 使用 in 查询的几种XML写法
    文字纵向打印
    oracle每天清理归档日志
    使用语句查询mssql死锁
    Xml序列化UTF-8格式错误
    Nginx的优点
  • 原文地址:https://www.cnblogs.com/haobox/p/15041851.html
Copyright © 2020-2023  润新知