• ruby 正则表达式 匹配中文


    1.puts /[一-龥]+/.match("this is 中文")                 =>中文

    2.str2="123中文"
    puts /p{Han}+/u.match(str2)

    文本编码格式:utf-8

    文件第一行:#encoding:utf-8

    require "rubygems"
    require "iconv"
    print Iconv.iconv("GBK","UTF-8",/p{Han}+/u.match("tiantianxin你好angshang天天向上")[0])       =>你好

    Ruby 和部分语言可以直接 #{Han} 等方式匹配特定的语言,但是对于某些语言,如 JavaScript,是不可能如此简便的

    还有常用的:

    • /p{Word}+/u 不限于 a-z0-9 的成词字符(就是非标点制表符空格等杂类的字符)
    • /p{Hiragana,Katakana}+/u 匹配平假名+片假名

    适用于中韩日的正则表达式,参考:http://chrisyip.im/post/regular-expression-for-cjk/

    学习参考:http://ruby-china.org/topics/5680

  • 相关阅读:
    作业II
    7.26 tar命令
    7.24
    网络003
    网络002
    网络001
    MySQL基于amoeba读写分离实验
    MYSQL数据库之主从复制及读写分离
    MySQL的主从异步复制实验
    MYSQL数据库扩展 索引与事务与引擎
  • 原文地址:https://www.cnblogs.com/dami520/p/3216169.html
Copyright © 2020-2023  润新知