• OmegaT 入门参考


    本文可作为OmegaT的新手参考。简单介绍了该软件的作用和原理,对涉及到的词汇表、词典、机器翻译、翻译记忆等进行了详细介绍,并给出了相应示例。
    基于OmegaT 4.1.2

    简介

    OmegaT 是一种计算机辅助翻译(CAT)工具,可显著提高翻译效率和质量,它不是像百度、有道翻译那样的翻译器,不能直接生成翻译结果。OmegaT适用于专业译员。它的功能包括使用正则表达式的可自定义分段,带有模糊匹配和匹配传播的翻译记忆,术语库匹配,词典匹配和参考资料搜索以及使用Hunspell拼写词典的内联拼写检查功能。

    它是免费的,也就是说无需支付任何费用就可以使用,甚至是用于专业用途;而且只要遵守用户授权协议,您就可以对它进行自由修改并且(或)重新发布。

    工作原理

    对于每个翻译任务,OmegaT会创建包含指定文件的项目文件夹的集合。用户把未翻译文档复制到其中的/source/子文件夹,而在翻译结束后,已翻译的文档会出现在/target/子文件夹中。OmegaT会在编辑窗格的片段中显示已分段的源文档的可翻译内容供用户翻译。

    在开始翻译前,用户还可以复制以前的翻译记忆到/tm/子文件夹,复制术语库到/glossary/文件夹以及复制StarDict词典到/dictionary/文件夹,在翻译时OmegaT会自动查阅它们。

    进行翻译时,OmegaT会自动检查以前的翻译以寻找类似的句子,找到后会显示在模糊匹配窗格中。译员可以使用快捷键把模糊匹配插入到编辑窗格。OmegaT还会查阅用户预先添加到项目文件夹的术语库和词典。如果启用了机器翻译,例如谷歌翻译,那么它会显示在单独的机器翻译窗格。

    翻译结束后,OmegaT会创建已翻译的文件,并导出项目当前的翻译到TMX文件中,这样这些文件可以在以后翻译时重用或者和其他使用OmegaT或其他CAT工具的译员进行交换。

    基本操作

    下载和安装

    OmegaT是一个跨平台的翻译软件,可以从官网下载。安装基本上一路Next就可以了。

    安装完成后界面

    新建工程

    项目->新建->选择一个空文件夹。OmegaT会在这个文件夹里生成翻译项目所需要的功能文件和子文件夹

    创建新项目

    创建新项目时,需要指定源文件和目标语言,中文环境安装后,默认为EN->CN。一般情况下,不需要更改选项,如果非要改,可在以后随时改。文件位置全部采用默认即可。

    添加待译文件

    创建项目后,默认打开项目文件对话框,点击导入源文件即可添加待译文件。

    项目文件

    翻译文件

    OmegaT每次呈现一个片段供您翻译。翻译一个片段后,按下Ctrl+U将前往下一个未译片段(或使用Ctrl+Shift+U前往下一个已译片段)。当您想看看译文的最终格式时,按下Ctrl+D会生成已译文档,它们在项目文件夹中的/target/子文件夹。在翻译过程中使用编辑和前往菜单可以执行多种有用的功能。

    翻译界面

    添加字典

    OmegaT支持基于StarDict或为Lingvo DSL格式的字典。百度搜索“StarDict”字典,可以下载到.gz等格式的压缩包,解压缩后,可得到词典数据(一般包含三个文件dzidxifo),将这些文件复制至项目文件夹 "Dictionary" 中,即可使用字典辅助功能。

    使用字典

    在使用过程中,发现某些字典文件没有效果,可能是格式或者字典本身原因,换一本即可。

    翻译记忆

    扩展名为tmx的文件为OmegaT项目的翻译记忆文件。它共存在于5个地方。

    1. 项目omegat 文件夹project_save.tmx文件。它包含了自项目开始以来所有被保存的片段。
    2. 项目主文件夹中包含 3 个 tmx 文件:project_name-omegat.tmxproject_name-level1.tmx 以及 project_name-level2.tmx
    • level1 文件仅包含文本信息。
    • level2 文件以适当的 TMX 标签封装了 OmegaT 的特殊标签,因此它可以在支持第 2 级 TMX 的翻译工具中使用其中的格式信息,包括 OmegaT 本身。
    • OmegaT 文件包含了 OmegaT 特殊的格式标签,因此该文件可用于其他 OmegaT 项目。
    1. tm 目录可包含任何数量的 TMX 文件。文件可是上面提示的三种形式。tm子目录中翻译记忆内容为待翻译文本提供建议。当它们与正在翻译的文本十分相似时,将出现在模糊匹配窗格中。
      如果某TM中某个源片段与待译文本完全相同,OmegaT会按照选项 → 编辑行为……对话框中的设置进行操作。例如(使用缺省设置),在辅助TM中的译文被接受并加上前缀[模糊],这样随后可以通过这个标记检查译文是否正确翻译。
      如果出现tm子文件夹的翻译记忆中多个片段含有相同的源文本,但目标译文不同,含相同源文本的最后一个片段将获得采用。
    2. 如果提供的 TM 译文完全可靠,把它们放到 tm/auto目录以避免大量的[模糊]进行确认,能更有效地预翻译源文本。也就是说待翻译文本中所有与片段相同的文字都会被自动替换,不再需要确认。
    3. 有时需要从翻译记忆中区分出高质量译文与不可靠译文。名为“penalty-xxx”(其中xxx在0到100之间)文件夹中的翻译记忆产生的匹配其匹配度将减少文件夹名称中的数字:例如Penalty-30文件夹中所有TM中100%匹配的条目将减低至70%的匹配度。

    打开项目时会把所有的翻译记忆加载到内存中。添加一个辅助 TM 到当前正在工作的项目时,无需退出项目:只要简单地重新载入项目,所做的更改就会生效。

    TMX备份

    OmegaT会不断在项目/omegat子文件夹的project_save.tmx文件中保存您的工作。

    OmegaT 还会在每次项目被打开或重新载入时备份翻译记忆到同一子目录的 project_save.tmx.YEARMMDDHHNN.bak。YEAR 是 4 位数的年份;MM 是月份;DD 是日期;HH 和 NN 是前一份翻译记忆保存时的小时和分钟。

    如果您认为丢失了翻译数据,可执行下列步骤:

    • 关闭项目
    • 重命名当前的 project_save.tmx 文件(例如改名为 project_save.tmx.temporary
    • 选择最有可能包含所需数据的翻译记忆备份(例如最近的那个或从某个日子的最后版本)
    • 复制并更名为 project_save.tmx
    • 打开项目

    这就说明所有的翻译工作其实都保存在project_save.tmx文件或其备份中。

    孤立片段

    project_save.tmx文件包含了自项目开始以来已翻译的所有片段。如果您修改了项目的分割规则或从源中删除了文件,那么在匹配查看器中可能出现孤立字符串。这样的匹配指向源文档中不存在的片段。

    重用翻译记忆

    创建项目后,主TM文件project_save.tmx是空的,翻译时逐步进行填充。重用现有的翻译,可加快这个过程。

    OmegaT创建目标文档时,项目的翻译记忆将会在根目录中输出三份文件。可将这三份 TMX 文件(-omegat.tmx-level1.tmx-level2.tmx)视为一份“导出的翻译记忆”,即当前项目的导出双语形式。

    如果希望复用之前某项目的翻译记忆,可将该项目的tmx用作“输入翻译记忆”,即将这些翻译记忆文件放置在新项目的/tm/tm/auto目录下。

    注意:程序启动时,/tm中所有 TMX 文件将会被解析,因此将过多的 TMX 文件导入将减慢OmegaT的运行。当翻译记忆文件的内容转到project-save.tmx文件后,可考虑移除那些不再需要的文件。

    导入和导出翻译记忆

    OmegaT 支持导入 tmx1.1-1.4b 版本(包括级别 1 和级别 2),可以在 OmegaT 中使用其他工具创建的翻译记忆。OmegaT在加载翻译记忆文件时遵循非常严格的过程。如果在文件中发现了错误,将提示问题文件中发现错误的位置。

    OmegaT导出1.4版本的TMX文件(包括级别 1 和级别 2)。导出的级别2不是标准的级别2,但足以在支持 TMX 级别2的翻译工具中产生正确的匹配。如果您只需要文本信息(而不是格式信息),可以使用级别1文件。

    创建所选文档的翻译记忆

    如果需要和他人分享部分翻译内容时,不能直接讲ProjectName-omegat.tmx分享。可采用下述简单技巧:

    • 使用其它名称创建一个独立项目。
    • 复制希望获取翻译记忆的源文档到项目的源文件夹。
    • 复制包含上述源文档翻译的翻译记忆到新项目的tm/auto子文件夹。
    • 打开项目。使用Ctrl+T检查标签错误,并用Ctrl+U检查未译片段。一切就绪后,按下Ctrl+D创建目标文档并检查其内容。
    • 完成

    更新翻译记忆

    OmegaT 的早期版本只能将源文本按照段落切割成片段,而且对HTML和开放文档文件的格式标签编号时会出现前后不一致。OmegaT可以实时检测并更新这样的TMX文件,以此提高模糊匹配的质量、提高现有翻译的水平,减少您的手工操作。

    项目的 TMX 只会更新一次,且会以更新过的格式写入 project-save.tmx,而每次项目被载入时都会对所继承的TMX文件进行更新

    注意:修改OmegaT中的文件过滤器在某些情况下可能会导致完全不同的片段分割结构,结果在少数情况下您必须手动更新译文。

    词汇表

    简介

    词汇表可保存术语,使得前后文术语保持一致,并可与其它文件重用。默认情况下,文件必须在/glossary文件夹,或较深层的文件夹(如glossary/sub/glossary.txt)。如果该文件不存在,添加词条时会自动创建。如果该文件已存在,不会对其格式或字符集进行检查,新条目总是以tab分隔并使用UTF-8编码。

    用法

    要使用现有词汇表,只需在创建项目后将它放到/glossary目录下。在打开项目时,OmegaT自动检测该目录下的词汇表文件。从词汇表中找到当前片段中的术语后,OmegaT 将会在词汇表窗格将它们显示出来。

    文件格式

    词汇表文件是简单的纯文本文件,包含了以制表符分隔的三列,第一和第二列分别对应源词汇和目标术语,第三列保存附加信息。

    可以添加目标列为空的条目,即只包含源术语和注释。

    支持 CSV 格式。该格式和 TAB 分隔的相同:源术语,目标术语。注释字段使用逗号 ',' 分隔开来。字符串需要括在引号 " 里面,这样可以在字符串中使用逗号:

    "I'm tina","我是tina"
    

    支持 TBX 格式。TBX(Term Base eXchange)是用于交换结构化术语数据的 XML开放国际标准。微软术语集 可以下载将近 100 种语言的术语,它们可以作为IT词汇表的基础。

    创建词汇表

    在词汇表窗格点击右键或按下Ctrl+Shift+G来添加新条目,对话框中可以输入源术语、目标术语及注释。

    创建词汇表

    也可以采用其它文本处理软件,直接编辑词汇表文件。保存被编辑文件后,更改会立即作用。

    跟我做

    glossary目录下新建一个test.txt,输入以下内容(注意:确保文件为utf-8编码,中间用tab隔开。):

    beijing  北京  中国首都
    

    我们创建了一个词汇表,并为beijing术语添加了解释。

    然后在source目录下创建一个cihuibiao.txt文件,输入以下内容:

    Beijing is our capital.
    

    重新加载该项目,切换到cihuibiao.txt文件,所得结果如下图所示。

    词汇表

    术语也可以是一个单词组合或句子,比如将上文的test.txt更改为

    Beijing is our capital	北京是我们的首都。
    

    结果如下

    术语

    高亮词汇表中的解释,然后右键即可插入光标位置。
    插入

    机器翻译

    与翻译记忆相对的是机器翻译工具,它使用基于规则的语言学工具而不是翻译记忆来创建源片段的翻译。

    要激活某种机器翻译服务,请前往选项>机器翻译……,然后激活需要的服务。注意:必须在线才能使用。

    • 谷歌翻译 由谷歌提供的付费服务。
    • Belazar 是用于俄罗斯-白俄罗斯语言对的机器语言翻译工具。
    • Apertium 是自由、开源的机器翻译平台
    • yandex 等。

    下面简单介绍配置Yandex的过程。

    • 前往https://translate.yandex.com 注册
    • 申请API key,并复制

    申请API key

    • 将申请到的key复制到OmegaT.l4J.ini文件中

    配置

    • 重新打开项目,即可使用机器翻译

    机器翻译示例

    机器翻译的结果并不可靠,只能提供一种参考。

    分割规则

    翻译记忆软件将待译文件按照一定规则分割成片段,逐片段翻译,既减少了单次工作,又为复用奠定基础。

    OmegaT使用两种方式对文本进行片段分割:段落分割或句子分割。

    要选择分割类型,请从主菜单选择项目 → 属性,然后选用选中或取消选中相应的复选框。

    在某些情况中使用段落分割是有好处的,例如在与创造性和文学性高度相关的翻译中,译员可能需要改变整个段落的顺序;然而,对于大多数项目,应优先选择句子分割,因为这样可以与以前的翻译实现更好的匹配。

    许多语言已包含可靠的分割规则,所以很可能您不需要自己编写分割规则。自定义分割规则在特殊情况下可能非常有用,您可以针对需要翻译的文本设置分割规则来提高生产力。

    注意:由于在改变过滤器选项后将对文本进行不同的分割,所以您可能需要从原文开始进行翻译。同时,在项目翻译记忆中原来有效的片段将变成孤立片段。如果您在项目打开的时候改变分割规则选项,您必须重新载入项目以使改变生效。

    结构层片段分割
    OmegaT 首先将文本分割成结构级别的片段。在这个过程中,只有源文本的结构被用于创建片段。例如:文本文件可能会在行终止、空行进行片段分割或根本进行分割。格式化文件(ODF文档、HTML 文档等等)在块级别(段落)标签处进行分割。XHTML 或 HTML 文件的可翻译对象属性可以被提取为独立的片段。

    语句级分割
    在将源文件分割为结构单元之后, OmegaT 将进一步把这些块分割为语句。

    分割规则及优先级

    片段分割过程可描绘如下:光标沿着文本移动,每次一个字符。在每个光标位置,由之前之后的模式组成的规则以指定的顺序应用,即对左边的文本使用之前模式同时对光标右边的文本使用 之后 模式。如果规则匹配,光标继续移动而不进行分割(对于例外规则)或者创建一个新片段(为中断规则)。

    中断规则
    将源文本分割为片段。例如,"Did it make sense?I was not sure." 应该分割成两个句子。要实现这样的目的,应该在 "?" 后跟着空格和大写字符时进行中断的规则。要定义一个中断规则,请选中中断/例外复选框。

    例外规则
    指定哪部分文本不应该被分开。不考虑句点的话, "Mrs. Dalloway " 不应被分割成两个片段,因此应该为后面跟着句点的 Mrs (以及 Mr 和 Dr 、prof 等等) 创建例外规则。要定义例外规则,请取消选中中断/例外复选框。

    规则的优先级
    为匹配的语言模式定义的所有片段分割规则会按照规定的优先级别得到应用,因此为特定语言定义的规则优先级会比缺省规则要高。

    自定义规则

    一般应避免对分割规则进行大幅调整,尤其在开始翻译后,但进行细微修正,例如加上识别的缩略语,可能会有好处。

    如果需要自定义分割规则,可以单击选项->分割规则打开如下对话框。

    分割规则

    点击新增,即可添加新规则,然后添加之前和之后模式。

    目的 前模式 后模式 说明
    设置在句点(‘.’)后跟着空格、Tab等的位置后开始新片段。 . s “.”表示句点字符。“s”表示任意空白字符(空格、Tab、新行符等)。
    不要在Mr.后进行分割 Mr. s 这是一条例外规则,因此必须取消选中规则的复选框。
    在“。”(日文句点)后进行分割 注意后模式规则是空的
    不要对M.、Mr.、Mrs.、和Ms.之后的内容进行分割 Mr??s??. s 例外规则——请查阅?在正则表达式中的用途

    快捷键

    快捷键的使用可提高软件效率。通过修改配置文件,OmegaT中大部分菜单都可设置快捷键。

    下面列出常用的默认快捷键

    1. 项目相关
      • 打开 Ctrl+O
      • 重新载入 F5
      • 关闭 Ctrl+Shift+W
      • 保存 Ctrl+S
      • 创建已译文档 Ctrl+D
      • 属性 Ctrl+E
      • 项目文件 Ctrl+L
      • 退出 Ctrl+Q
    2. 编辑菜单
      • 取消前一操作 Ctrl+Z
      • 重做前一操作 Ctrl+Y
      • 用匹配替换 Ctrl+R
      • 插入匹配 Ctrl+I
      • 用机器翻译替换 Ctrl+M
      • 用源文本替换 Shift+Ctrl+R
      • 插入源文本 Shift+Ctrl+I
      • 插入源标签 Shift+Ctrl+T
      • 导出选中部分 Shift+Ctrl+C
      • 创建词汇表条目 Shift+Ctrl+G
      • 在项目中搜索…… Ctrl+F
      • 选择第一匹配 Ctrl+1
      • 选择第二匹配 Ctrl+2
      • 选择第三匹配 Ctrl+3
      • 选择第四匹配 Ctrl+4
      • 选择第五匹配 Ctrl+5
      • 循环转换大小写 Shift+F3
    3. 前往菜单
      • 后一未译片段 Ctrl+U
      • 后一片段 Ctrl+N或Enter或Tab
      • 前一片段 Ctrl+P或Ctrl+Enter或Ctrl+Tab
      • 片段序号 Ctrl+J
      • 在历史中前进 Ctrl+Shift+N
      • 在历史中回退 Ctrl+Shift+P
    4. 其它
      • 检验标签 Ctrl +T
      • 用户手册 F1
  • 相关阅读:
    MySQL数据库返回影响行数的实际操作流程
    nslookup命令
    Mysql Strict Mode
    mysql表大小写
    Objective-C消息转发
    NSDateFormatter 和 NSDateComponents 的用法
    提交app的时候总是报出icon的错误
    IOS 的loadView 及使用loadView中初始化View注意的问题。(死循环并不可怕)
    [[NSMutableArray alloc] init];和[[NSMutableArray alloc] initWithCapacity:0]区别
    NSMutableArray初始化崩溃问题
  • 原文地址:https://www.cnblogs.com/fuyude/p/OmegaT_intro.html
Copyright © 2020-2023  润新知