1、下载安装MongoDB
https://www.mongodb.com/download-center#community
找到合适的版本下载,安装。
安装好之后,找到安装目录下
D:Program FilesMongoDBServer3.4in
新建一个data的文件夹
编写一个启动MongoDB的批处理文件start.bat,内容为mongod --dbpath ./data,下次启动直接双击这个批处理文件即可。
启动非常简单。
打开浏览器访问数据库,验证是否开启成功。
这样在命令行下不便观察数据,这里下载一个可视化软件。mongoVUE,下载地址:http://downloads.informer.com/mongovue/download/
安装好之后连接127.0.0.1:27017就OK了
2、pymongo的安装和使用
pip install pymongo
说明:4、5、6行建立连接,8、9、10行创建元素,11、12、13插入数据库,14行删除数据库。
3、scrapy应用MongoDB
在settings.py中配置MongoDB的ip、端口、数据记录名称。
在settings.py中引用pipepines.py从而使pipelines生效
这些是settings.py中对MongoDB的配置
这一句引用pipelines.py里面的NovelspiderPipeline类,以下是piplines.py文件
对上面代码的解释:
导入items.py中的NovelspiderItem这个类
这个是初始化函数。
这个是处理函数,self.post.insert(item)插入数据库,return item是返回item数据便于观察。
然后在spider.py文件中,加一个yeild item就可以将数据传到数据库中了。