1
biopython ,可以自动获得NCBI的接口,ESearch可以获得文章UMID,可以获得文献等具体信息
biopython的参考网站,http://biopython-cn.readthedocs.io/zh_CN/latest/
2
获得UMID后,动态生成url爬取整个html页面,填入文章表,是否已爬取,防止崩溃,作记录
3
把爬取到的HTML页面的字符串存到mongodb中,mongodb是no sql db,存取字符文本等。
4
beautiful soup解析mongodb中的html,把解析到的信息填入作者表,文章表以及引用表存于MYSQL,便于统计
beautifulSoup 参考网站 https://www.crummy.com/software/BeautifulSoup/bs4/doc.zh/
NCBI
1爬取原文(大概5万)
2爬取论文信息页(大概8万)
NCBI直接搜索翻页无法实现,在服务器上有部分数据,根据搜索历史翻页。
Author表:
1)Id
2)全名
3)简称
4)NCBIUID (NCBI给每个作者分配的独一无二的id)
文章表:
1)Id
2)文章题目
3)文章链接
4)作者:存id或NCBIUID
5)发表时间
6)Abstract
7)Keywords
8)标志位1:是否有原文
9)标志位2:是否已爬取
10)PMID(NCBI给文章分配的专门的ID)
引用表:
1)Id
2)原文:存文章ID或PMID
3)引用文