今天对行业分类进行了完成,学到了新知识python字符串相似度比较,不难但很实用,可以返回两个字符拆串的相似程度,我也利用了这一点比较和各行业的相似程度,然后分配行业,成果较好。
当然对相似度的比较,少不了原数据,那么我爬取了百度的一个网址,爬取到了内容,这里遇到了一个问题,就是百度会限制代码端,所以我们要伪装一下,具体如下:
url = 'https://baike.baidu.com/item/国民经济行业分类/1640176?fr=aladdin' headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.131 Safari/537.36',} strhtml = requests.get(url, headers=headers) #Get方式获取网页数据
通过这样的伪装就可以爬取到你想要的数据了,明天我会继续努力,完成最后一部分。