• 2018-08-27 使用JDT核心库解析JDK源码后初步分析API命名


    源自术语词典API项目 · Issue #85 · program-in-chinese/overview, 打算先用早先的代码提取JDK API中的类/方法/参数名, 看看有哪些词需要翻译.

    源码在program-in-chinese/programming_term_dictionary

    类型名提取器.java 扩展了语法树遍历器, 对公开(public)的类型/方法/参数进行保存:

    public class 类型名提取器 extends ASTVisitor {
    
      private 类型名 名 = new 类型名();
      
      private String 当前类名 = "";
    
      @Override
      public boolean visit(MethodDeclaration 方法节点) {
        String 当前方法名 = 方法节点.getName().getFullyQualifiedName();
        if (为公开声明(方法节点)) {
          名.方法名.put(当前方法名, 当前类名);
        }
    
        for (Object 参数 : 方法节点.parameters()) {
          VariableDeclaration 变量声明 = (VariableDeclaration) 参数;
          String 参数名 = 变量声明.getName().getFullyQualifiedName();
    
          // 忽略所有单字母参数名. TODO: 是否需要研究单字母命名?
          if (参数名.length() > 1) {
            名.参数名.put(参数名, 当前类名 + "." + 当前方法名);
          }
        }
        return super.visit(方法节点);
      }
    
      @Override
      public boolean visit(TypeDeclaration 类型节点) {
        if (为公开声明(类型节点)) {
    
          // TODO: 取完整类名(包括包名)
          当前类名 = 类型节点.getName().getFullyQualifiedName();
          名.类名.put(类型节点.getName().getFullyQualifiedName(), 当前类名);
        }
        return super.visit(类型节点);
      }
    
      public 类型名 获取名() {
        return 名;
      }
    
      private boolean 为公开声明(BodyDeclaration 节点) {
        return (节点.getModifiers() & Modifier.PUBLIC) != 0;
      }
    
      public class 类型名 {
        public Map<String, String> 类名 = new HashMap<>();
        public Map<String, String> 方法名 = new HashMap<>();
        public Map<String, String> 参数名 = new HashMap<>();
      }
    }
    

    遍历JDK类型名.java 暂时只对util部分进行分析

    public class 遍历JDK类型名 {
    
      private static final ASTParser 语法解析器 = ASTParser.newParser(AST.JLS8);
    
      // JDK源码内路径
      private static final String 常量_源文件路径 = "java/util";
      private static final String 常量_输出文件路径 = "命名列表/";
    
      private static final 类型名提取器 提取器 = new 类型名提取器();
    
      /**
       * 
       * @param 参数 第一个参数为JDK路径。可由JDK目录下的src.zip解压。
       * @throws Exception
       */
      public static void main(String[] 参数) throws Exception {
        if (参数.length != 1) {
          System.out.println("需要JDK源码路径作为唯一参数");
          return;
        }
    
        文件功用.创建路径(常量_输出文件路径);
        处理Java文件(new File(参数[0] + 常量_源文件路径));
    
        类型名 名 = 提取器.获取名();
    
        // 从方法列表中删除所有构造方法
        for (String 类名 : 名.类名.keySet()) {
          名.方法名.remove(类名);
        }
    
        String 后缀 = "_" + 常量_源文件路径.replaceAll("/", "_");
        文件功用.写行入文件(名.类名, 常量_输出文件路径 + "类" + 后缀 + ".txt");
        文件功用.写行入文件(名.方法名, 常量_输出文件路径 + "方法" + 后缀 + ".txt");
        文件功用.写行入文件(名.参数名, 常量_输出文件路径 + "参数" + 后缀 + ".txt");
        System.out.println("提取完毕: " + 名.类名.size() + "类;" + 名.方法名.size() + "方法;" + 名.参数名.size() + "参数");
      }
    
      private static void 处理Java文件(File 路径) throws Exception {
        if (路径.isFile()) {
          if (路径.getName().endsWith(".java")) {
            解析Java文件(路径);
          }
        } else {
          File[] 文件 = 路径.listFiles();
          if (文件 != null) {
            for (File 某文件 : 文件) {
              处理Java文件(某文件);
            }
          }
        }
      }
    
      private static void 解析Java文件(File 文件) throws Exception {
        语法解析器.setSource(文件功用.取源文件文本(文件).toCharArray());
        语法解析器.createAST(null).accept(提取器);
      }
    }
    

    初步统计:

    提取完毕: 332类;1172方法;449参数
    

    按照骆驼命名对提取出的命名进行单词拆分后, 得到902个单词, 其中有不少同根词, 如:

    sequence
    sequential
    split
    splittable
    token
    tokenizer
    word
    words
    write
    writer
    zone
    zoned
    

    还有不少不明所以的:

    csn
    em
    fd
    

    接下去将拆分出的单词与源API联系起来, 以便翻译时结合原API语义(已更新上面的源码). 比如csn来源于java.util.Formatter.Formatter(String fileName, String csn, Locale l), javadoc中意为The name of a supported {@linkplain java.nio.charset.Charset charset}. 真猜不到.

    顺便对所有java/下的源码进行统计:

    1579类;5093方法;2022参数
    2752个单词
    

    5倍左右数量的API但单词数只有3倍, 看来复用率蛮高. 总单词表在.

  • 相关阅读:
    Oracle数据库相关问题
    常用Oracle数据库查询SQL
    VS2019添加引用错误:COM组件调用返回错误HRESULT E_FAIL
    C#.NET重点知识点汇总(三)
    C#.NET重点知识点汇总(二)
    C#.NET重点知识点汇总(一)
    ajax的19道经典面试题
    C#设计模式——抽象工厂模式
    C#设计模式——工厂方法模式
    C#设计模式——简单工厂模式
  • 原文地址:https://www.cnblogs.com/program-in-chinese/p/10499281.html
Copyright © 2020-2023  润新知