1.最近在爬取文献,提取摘要,并将其翻译成中文。
2.每次会在不同的item出报错,错误信息如下所示:
3.百度搜索原因:原因:服务器限制了User-Agent的访问。
4.UA的作用
UA:即user-agent,中文名称为用户代理;在爬虫中使用user-agent可以对爬虫
进行适当的伪装。
User-Agent放在headers中,服务器就是通过Headers中的user-agent字段来判断是谁在进行访问。
5.如何避免UA错误
构建user-agent列表,每次调用requests命令时,利用random.choice(ll)方法,随机挑选UA。