数据分析练习-3.14进度

今天对行业分类进行了完成，学到了新知识python字符串相似度比较，不难但很实用，可以返回两个字符拆串的相似程度，我也利用了这一点比较和各行业的相似程度，然后分配行业，成果较好。

当然对相似度的比较，少不了原数据，那么我爬取了百度的一个网址，爬取到了内容，这里遇到了一个问题，就是百度会限制代码端，所以我们要伪装一下，具体如下：

 url = 'https://baike.baidu.com/item/国民经济行业分类/1640176?fr=aladdin'
 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',}
 strhtml = requests.get(url, headers=headers)        #Get方式获取网页数据

通过这样的伪装就可以爬取到你想要的数据了，明天我会继续努力，完成最后一部分。

相关阅读:
linux挂载ntfs格式的U盘
linux tar命令
chown chmod chgrp chattr chroot usermod 命令简单分析
UI/UE/ID/UED/UCD的区别（转）
搭建 Docker Swarm 集群
端口
linux crontab 定时任务
centos8 安装 docker
history 用法大全
PHP生成正则表达式的类

原文地址：https://www.cnblogs.com/lover995/p/12495421.html