即时比分球探007_007球探网

足彩2串1单选双选比较 :三类翻译技术的比较与创新(转载)

  三类翻译技术的比较与创新,  时至今日,在世界范围内,计算机语言文字信息处理。都是对各种语言文字的字符进行编码,称内码或字符代码。然后以这些字符代码作记录,形成各种语言文字的文本文件。语言文字的信息处理,例如输入、贮存、传输、打印、识别,以致机器翻译,都是面向这种文本文件,针对字符和字符代码进行的。,  语言文字的本质是表意,句子是表达完整语意的基本单位。发明人经过20年来对句子表意的探讨以及相应的编程实践,发现不同语言文字的句子与句子之间存在着句骼等共同的表意构件。多语种句子的表意是以句骼等这些共同的表意构件实现的。然而,本项目属于机器翻译,而是“基于表意构件”的一种全新的计算机语言文字处理方法软件。这是一项不可低估的技术创新,正如一些专家所指,计算机自然语言处理问题的瓶颈不在计算机,而在于语言文字方面。例如字、词、词组的多义性,致使基于规则的机器翻译(MT)至今仍“语义障碍”而译文质量太差。在“基于表意构件”这里,字、词、词组都变成了单义;具体说来,在句骼框架内,字、词、词组都是单义的。这就可以避开“语义障碍”而获得更好的效果。传统的机器翻译软件有基于规则的机器翻译、翻译记忆二类(前二者的混合型除外),现简介后进行对比,以显示本项目的技术创新:,  一、传统基于规则的机器翻译:,  基于规则的机器翻译(machine translation,MT),MT的原理是让计算机以“字→词→短语→句”的步骤逐个节点分析最后深入源句的底层(语义表示),然后又以如此的逆过程得出目句。首先得确定源语每个字或单词的词性、与另一个字或单词是否可组成词或短语,再根据规则和相应词典将相邻单词组成许可的各种短语。如确定“an arrow”为名词短语NP,再到下一个节点与介词like组成介词短语。如此一步一步,逐个节点分析判断词法、词义,最后到达源语底层。然后,再以相应的逆过程得出目语句子。如图1:,,  这就是与计算机同龄的基于规则的机器翻译、MT。它的优点是自动化化程度高,速度快。缺点:其一是将语言现象归纳为规则不容易,好不容易归纳出来的规则常常因为词汇的更换、语序的改变而失效。其二是以“字→词→词组→短语→句”的过程分析。在这个过程中,不可避免地的是字、词的多义性;计算机不懂语义,无耐之下只好凭借几率,直接影响译文质量。其三是以“字→词→词组→短语→句”的过程分析与综合,与句子的骨架(框架)不相符,往往由于句子骨架或框架的缺失而使译句不可读。,  正因为上述“缺骨架、几率词义、规则难”三大难点难以避免,MT的译文往往令人啼笑皆非;译得满屏汉字往往中国人读不懂;其软件只能仅为外文盲和外文很差的用户提供参考。,  二、翻译记忆,  翻译记忆(Translation Memory,TM),上世纪90年代德国的TRADOS开始使用。原理很简单。基于数据库,将翻译过的材料以源目语句子对为单位存入数据库。翻译时系统自动对电子文档进行分析,100%匹配的句子可以自动替换,部分匹配的句子可根据匹配度提出翻译建议,由译者修改编辑后作为译句。,  翻译记忆优点是译文质量高,可以用于专业翻译。其成功之处是让计算机做了它能够胜任的事。由于专业领域文本的重复率有30%甚至更高,所以在专业翻译场合得到了应用与推广。,  缺点是只能供具有独立翻译能力的人员使用,大部分文本仍需要人工翻译;其次是对不足100%相似度的句子提供给用户修改编辑,操作烦琐,往往修改一句不如重新翻译一句快捷。,  翻译记忆与MT相比,仅是在MT上述三个缺点不可避免时,翻译记忆以人力为代价,获得了专业应用,没有突破性进展。可称道的成功之处是让计算机做了它能够胜任的事。,  三、基于表意构件的专业翻译:,  本项目基于表意构件的专业翻译,翻译时让计算机对源语句子进行句骼搜索;得到与之匹配的源、目语一对句骼。然后,把源语句子对号入座地套入源语句骼;再将其各个句舱的内容转移到目语句骼上。最后对各个句舱进行源、目语的词串转换,可以得到高质量的译句。如图2:,,  基于表意构件的专业翻译是基于多种技术综合性的机器翻译。它首创地发掘和利用表意构件;继承并发扬了MT和翻译记忆之长:,  1)将翻译记忆成功之道“让计算机做了它能够胜任的事”拓展为让计算机记住表意构件,做它能够胜任的事;,  2)句骼和舱模这两种表意构件,来自多语种句子的骨架(框架)部分,避免了如同MT缺骨架之难;,  3)基于句骼等表意构件,在句骼框架内,词变成了单义,这就避免了如同MT以字组词、凭几率选词义之难;,  4)句骼和舱模两种构件包含着句子的语法结构,能确定好每个词语在译句中的位置,能翻译出准确的句子;,  5)句骼等表意构件能利用软件技术,人机交互进行提取,具备普通大学毕业外语水平加上相应专业知识的人就可以信任,并且可以长时期使用;与MT的“规则难”相比,正好相反而成为一种理想状态;,  6)基于句骼等表意构件,不必像MT那样多层次的逐个节点分析判断词义,仅在以句骼句舱形式给出时,一个层次解决词汇的多义性难题;巧妙地成为“机译人校”模式,机器可以利用“句骼对句舱的选择和制约”作用,加上在MT那里成熟的人工智能进行预选,给出后由译者来校对更正。,  四、三种翻译技术性能比较:,  下面对传统的机器翻译,MT、翻译记忆和本项目表意构件翻译,三种翻译技术性能比较如下:,,  五、表意构件翻译技术的创新点:,  表意构件翻译技术继传统机器翻译,MT、翻译记忆之后;扬长避短,继承并发展了两者的优点,关键技术创新点有:,  1.利用句骼等表意构件拆分源语句子,  利用句骼等表意构件拆分源语句子很简单,只要根据源语句子查询句骼库,得到匹配的句骼之后,将源语句子对号入座地套入其中,源语句子就被分成句骼、句舱、意群串等;其中如果有大句舱,再进行一个查询舱模、套入舱模的运作整个源语句子就被拆分成句骼、句舱、舱模、舱眼、意群串等表意构件。正因为它们是表意构件,不必再拆分就可以转换生成目句。,  本技术方法基于句骼等表意构件,以句骼等表意构件组建数据库。比翻译记忆以句对组建数据库更先进,其一可以利用句骼等表意构件拆分源语句子,翻译记忆的句对记忆做不到。同时也比传统机器翻译MT更先进,利用句骼等表意构件拆分源语句子,取代了MT的繁琐的由“字→词→短语→句”的步骤逐个节点分析判断词义;这就避开了语义障碍。另一方面,MT的规则需要语法家归纳总结,好不容易总结出来的规则很容易由于词汇、词序的改变而失效;本项目的表意构件普通大学生操作软件,人机交互就可以提取表意构件,也容易进行库扩展支持翻译。,  2.利用句骼等表意构件组装目语句子,  本项目句骼、舱模、意群串、组串、 语等表意构件分别组建了数据库。在数据库中,相同语义的不同语种的构件共处一个记录,构件之间相互影射,这种特别的设计。当上款利用表意构件拆分源语时,例如查询句骼库,得到源语句骼后,可以同时取出相同记录的目语句骼。当把源语句子套入源语句骼后(有舱模的再套舱模),可以将它们的句舱、舱眼内容转移到目语句骼的句舱和舱眼去,最后将句舱和舱眼内的源语词串转换成目语词串而组装出目语句子。具体的步骤流程见技术线路和它们的流程图。,  利用句骼等表意构件组装目语句子,与上款拆分源语句子一样是继承并发展了基于规则的机器翻译和翻译记忆。,  3.以句骼句舱形式给出待校,  本项目技术如上所述,虽然利用句骼等表意构件拆分了源语句子,同时又利用句骼等表意构件生成了目语句子。但是翻译还没有结束,还有重要的以句骼句舱形式给出待校一步。在上述“将句舱和舱眼内的源语词串转换成目语词串”这个过程中,有重要技术内容必须说明。例如在“1[ Time ] 象 3[ an arrow ] 一样 2[ flies ] 。”这步,句舱内不是源语意群串而是源语词串,根据这些词串搜索意群库时,会搜索出多条目语词串,例如“flies”会搜索到“飞”、“苍蝇”、“飞逝”、“蝇类”等等。这里会利用句骼的“对句舱内容的要求和限制作用”(扩展和新增的人工智能作用)选出最适当的给出;其余的保留在机内备用,然后以句骼句舱形式给出。如:,  1[ 时间 ] 象 3[ 箭 ] 一样 2[ 飞 ] 。,  上述运作都在机内进行,译者不可见;当远行结束给出后,译者一眼便能发现“飞”语义不恰当。这里采用人机互动方式;人看到语义不妥之处,单击它,随即弹出一个窗口,将原保留在机内备用的所有相关项,“飞”、“苍蝇”、“飞逝”、“蝇类”等显示,译者单击“飞逝”选中即可置换“飞”。得出如意的目句“时间象箭一样飞逝。”,  这种方式给出是本项目技术创新点之一,计算机查表搜索,进行非语义判断,机译最后给出由人进行语义审定,人理解语义,作校对,确保译文语意准确。,  4.句骼等表意构件的提取与建库,  句骼等表意构件是多语种句子表意的对等与统一;它来源于对多语种句对的剖析和提取。关于表意构件的有关定义、主要内容“理论创新”部分已经述及这里不再重复。这里对表意构件的提取的技术创新点简介如下:,  首先将多语种相同内容的文档整理成句对数据表(略)。再面向这个句对数据表利用软件技术、人机交互进行提取。在这个过程中,人操作计算机运行软件,每次读出一个句对进行操作,操作分若干过程,每个过程又分若干步骤。在每个步骤当中,尽可能多的让计算机进行识别操作,不得不依赖语义判断时暂停接受干预。对于人工干预时的输入内容、选点信息都要进行检测核实,确保获得数据、即提取出来的表意构件准确无误。在这整个过程中,人理解语言,根据具体步骤、内容要求,指定一个对象,然后计算机进行相应检测、处理,在一定的过程、步骤下产生一定的表意构件,存放于相应数据库,确保精准。表意构件有句骼、舱模、意群串、组串和 语,它们分别在哪个过程、哪个步骤中产生见技术线路以及它们的流程图。,  一、传统基于规则的机器翻译:,  语言文字的本质是表意,句子是表达完整语意的基本单位。发明人经过20年来对句子表意的探讨以及相应的编程实践,发现不同语言文字的句子与句子之间存在着句骼等共同的表意构件。多语种句子的表意是以句骼等这些共同的表意构件实现的。然而,本项目属于机器翻译,而是“基于表意构件”的一种全新的计算机语言文字处理方法软件。这是一项不可低估的技术创新,正如一些专家所指,计算机自然语言处理问题的瓶颈不在计算机,而在于语言文字方面。例如字、词、词组的多义性,致使基于规则的机器翻译(MT)至今仍“语义障碍”而译文质量太差。在“基于表意构件”这里,字、词、词组都变成了单义;具体说来,在句骼框架内,字、词、词组都是单义的。这就可以避开“语义障碍”而获得更好的效果。传统的机器翻译软件有基于规则的机器翻译、翻译记忆二类(前二者的混合型除外),现简介后进行对比,以显示本项目的技术创新:,  三类翻译技术的比较与创新
作者:admin | 分类:007足球比分 | 浏览:131 | 评论:0 2022 04 28  
« 上一篇 下一篇 »
Copyright 007足球比分 Some Rights Reserved.