python 爬虫newspaper3k 新闻爬去方法利用第三方库

from newspaper import Article


url = '你想要爬取的网站url'
news = Article(url, language='zh')

news .download()  #先下载
news .parse()    #再解析

print(news.text) #新闻正文
print(news.title) #新闻标题
print(news.html)   #未修改的原始HTML
print(news.authors)  #新闻作者
print(news.top_image) #本文的“最佳图像”的URL
print(news.movies)  #本文电影url
print(news.keywords) #新闻关键词
print(news.summary)   #从文章主体txt中生成的摘要
print(news.images) #本文中的所有图像url

相关阅读:
Eclipse配置Go语言开发环境（GoEclipse）
Maven项目设置JDK版本
PowerDesigner16下载和破解
Ubuntu安装JDK配置环境变量
IIS配置文件的XML格式不正确 applicationHost.config崩溃恢复解决办法
Android Studio中文注释提示编码问题，Gradle: 警告:编码 GBK 的不可映射字符的方法...
Android Studio 编译异常Could not execute build using Gradle installation解决办法
Android Studio 导入第三方JAR编译正常，但运行时调用不了问题的解决方案
Android Studio添加第三放JAR后无法编译问题解决方案
Eclipse打不开，提示： An error has occurred. see the log file解决办法

原文地址：https://www.cnblogs.com/duanlinxiao/p/9835003.html

python 爬虫newspaper3k 新闻爬去方法 利用第三方库

python 爬虫newspaper3k 新闻爬去方法利用第三方库