• 使用ruby和MongoDB编写采集软件


    刚写好的网站,rails 3编写,http://www.yo945.com

    刚好要写一个采集软件,没有特别的要求,只要能采集下来数据,保存到数据库,然后再在合适的时候把数据发布到网站即可,没有多想的,立即就想到了用着最顺手的C#来开发。在选择数据库时,本来是想SQLite的,单文件,速度也快,就在设计数据库时,突然想到,采集软件,NoSQL数据库可能是更合适的选择。

    在采集数据时,一般需要先把需要采集的URL写到数据库中,而数据则往往是把URL作为关键,比如有没有采集过,有没有发布过,有没有下载过附件等,都是URL相关的,但是并没有复杂的关系。如果把URL作为主键的话,使用NoSQL数据库是相当合适的。正好一直想在实际运用中使用一回MongoDB,这次正是个机会,就体验一回吧。

    于是正式决定,使用C#作为前端开发,MongoDB作为数据库,开始编写。本来一直非常喜欢用C#写软件,相比JAVA而言,它用起来更灵活,IDE也更好用,没想到越写越不舒服,不舒服的原因,最大的在于,太多的数据类型,我需要去考虑是string还是long,类型不对就会出异常——这本来是强类型语言的强项,不容易出错,让IDE的提示更加智能,这次却让用了几个月RUBY的我觉得太麻烦,太难受了。

    用RUBY试试?想想,完全可以,采集而已,根本不需要一个什么界面,字符界面完全已经足够,加上mongo的gem,完全能够胜任。

    首先是准备,需要安装访问MongoDB的gem

    gem install mongo
    gem install bson_ext
    第二个gem并不是必须的,但是有它可以让mongo的运行速度更快。
     
    db = Mongo::Connection.new.db("text")
    col = db.collection("book")
    result = col.find_one()
     
    这样就能得到一个结果,相当的方便,没有类型转换,也不用去想是什么类型。得到的结果是一个hash,直接使用hash[“key”]这样的方式就能访问了。
    当然这样的访问方式并不是很直观,不如modle.attr这样的访问方式。不过在ruby下,并不需要去专门建立一个modle,建立一个包装类,在里面加上method_missing方法,就能直接“生成”方法了。
     
    class Wrap
      def initialize(val)
        @value = val
      end
    
      #防止和原有方法冲突,“字段”前都要加上val_前缀
      def method_missing(name,*args,&block)
        method = name.id2name
        if /^val_([\w_]+)$/ =~ method then
          #没有配置则引发异常
          raise NoMethodError,"no column :#{$1}" unless @value.has_key?($1)
          return @value[$1]
        end
        
        raise NoMethodError,"no method:#{method}"
      end
    end
    
    data = Wrap.new(result)
    puts data.val_url

    今天就写了这么多,用得相当的舒服,或许以后对界面没什么要求,只要求功能的小软件,我都会用RUBY来写吧,哈哈。

    Technorati 标签: MongoDB,ruby,采集软件
  • 相关阅读:
    size_type、size_t、differentce_type以及ptrdiff_t
    题目1003:A+B ---c_str(),atoi()函数的使用;remove , erase函数的使用
    字符串中符号的替换---replace的用法
    A+B for Matrices 及 C++ transform的用法
    97.5%准确率的深度学习中文分词(字嵌入+Bi-LSTM+CRF)
    详细解读简单的lstm的实例
    如何使用 Pylint 来规范 Python 代码风格
    Python下Json和Msgpack序列化比较
    除了cPickle,cjson外还有没有更高效点的序列化库了
    python对象序列化或持久化的方法
  • 原文地址:https://www.cnblogs.com/varlxj/p/2181898.html
Copyright © 2020-2023  润新知