• 上海外国语大学语料分析工具开发简记


    说明

    机缘巧合,做了一个语料分析小工具,帮助汉语专业的学生批量导出数据,快速统计谓宾动词占比等,数据来源使用北京语言大学的bbc语料库(目前此语料库已转为北语校内使用,无法从校外访问)。

    爬虫

    写了一个小爬虫放到了自己服务器上,日夜兼程,将数万条数据存到了自己服务器的数据库里。

    • 爬虫V1.0,简单分页爬取数据,得到数据后存到数据库内;部署后发现若快速访问北语语料库,对方网站很容易500,导致我的爬虫长时间宕机和重复爬取。
    • 爬虫V1.1,设置定时,降低访问频率,添加任务断点和崩溃重启;部署后计算时间,发现需要20个小时才能爬取完成10w条数据,时间太长。
    • 爬虫V2.0,开两个爬虫进程,每个进程开两个线程,爬虫完成或崩溃后发邮件提醒;部署后将爬取时间由20个小时缩减到了5个小时,一觉醒来爬取完毕。

    阿里飞冰

    第一次使用阿里飞冰组件库,发现很好用,写代码的过程很流畅,构建、打包编译效果都很好,这个脚手架还是很完善的,适合敏捷开发用,组件库的UI效果也很好。

    页面截图

  • 相关阅读:
    愚蠢的程序员...
    云计算优于终端计算和集中计算?
    REST资源合集
    龙芯软件开发:使用龙芯2e的模拟器GXemul
    The Origins of Complex Numbers
    net 3.5 Ms Chart 使用心得
    XPO 第三方控件学习(DevExpress Persistent Object )系列表间关系
    show your data
    缩略数据
    单片机试题
  • 原文地址:https://www.cnblogs.com/bbman/p/12072303.html
Copyright © 2020-2023  润新知