语言服务
专属直播平台

人工智能机器翻译技术与应用 – 丁丽

关注译直播 精彩不错过

打造语言服务专属平台
只要关于语言服务那些事
免费提供直播平台与技术

13395997958
15960755939

微信同号

video
 
大家好,我是云译的丁丽。首先感谢姜秘书长、江总邀请我来参加这次盛会!也非常荣幸与各位同仁进行沟通交流,也很感谢这一次的学习机会,受益颇多。 刚才史总和陈总对我们翻译行业讲得很多,从机器翻译的技术和CAT软件的技术做出了最专业的展示。

我就代表云译科技向大家汇报一下,云译科技最近两年在机器翻译的技术发展的研发,和在市场行业应用的一些情况。我先做一下云译的公司介绍,我们是新宇智慧科技,和我们大部分在座的同事一样,是传统的人工翻译。


然后,和厦门大学人工智能研究所一起成立了一个合资公司。厦门大学的人工智能研究所团队主要是以史晓东教授、陈毅东教授带着几位博士生和一些硕士生研发团队一起来做的。


简要介绍一下史晓东教授,目前的职位是厦门大学的博士生导师、教授,也是人工智能系的系主任,还是中文信息学会的常务理事,也是2018年中国机器翻译大会的轮值主席。他是南京大学的本科,后来读了国防科大陈火旺教授计算机软件与理论的硕博连读,当时他的研究方向就是机器翻译。毕业以后就进了桑夏集团,桑夏集团也是我们国家最早做机器翻译的第1代的技术研发公司。当时也是非常的出名,中国第1个机器翻译的网站叫看世界,就是史晓东教授在桑夏集团开发的。后来,桑夏集团出售了给其他公司,他就进了厦大。在厦大从2002年到目前为止,中间主持过国家的863项目十多项,其中9项都是机器翻译。从89年开始研发的RBMT,就是基于规则的机器翻译系统,当时中英规则已经是业界最好的。目前规则的系统仍然是开源,在厦大的网站上可以找得到,也是免费对外开放应用。然后在2000年前后又开发了SMT,也就是统计类的机器翻译,随着计算机和大数据的发展,大数据统一成为可能,所以第2代的技术就是统计类机器翻译。他也是中国第1个利用神经网络机器模型,做机器翻译的研发人员。


目前来说云译的技术主要还是主要模型是NMT,是神经网络机器翻译技术。但是有很多解决不了的问题,比如说数字模块,它就用规则,用RBMT去解决。比如刚才史总说的标点符号,有些技术难点就用规则类的模块去替换掉。所以史教授对机器翻译技术的解决问题的能力,还比较强。我也非常欢迎,如果愿意的话,我们可以做技术交流,共同来促进我们整个机器翻译行业的发展。


整体来说我们国家的机器翻译发展比起微软、谷歌,比起世界上比美国还是要落后很多,我也非常希望我们同行之间能够交流,相互促进。


我们利用这些目前开发的技术产品线,大家可以搜索云译科技 进入我们的官网以后,点击立即使用免费的机器翻译,就进入到多元系统的免费机器翻译的平台。目前来说其中的中英不是很准确,因为我们还要有一点收入,所以把中英的细分领域,在MT Room这里点。你可以选用厦门、徐州或者广州服务器,这是我们的站点,选入任何一个可以进入到我们的专业细分领域。


我再补充一下语言,目前我们研发出来的语言种类是联合国的6个语言;另外加上日语、韩语;东南亚的有印尼、越南、马来、泰语;南亚的印地语,英到印地语;还有葡萄牙语、意大利语、欧洲的其他一些语言。另外我们在民族语言上有藏、维、蒙三个语言。这是可以自动检测语言,其中有英法、英西,这些质量也非常好,我们也经过众多的专家评测。各位如果有这方面的需求,可以在这上面去尝试一下。


刚才史总也讲了,就是说机器分析的技术,它基本上就是学习的原理,NMT现在是学习的原理。我们不要抱怨机器翻译,它不准确的原因是他没有学习过,他没见过,可能就不会;那么见过的、学习过的,他还是很聪明的,能够记得还比较好。


我们现在细分领域的系统是在我们的基础系统基础之上,加了专业细分的语料进行增量训练。刚才史总也讲了增量训练的一些原理,我不再多说了。有的公司说20年做翻译,积累了大量的语料,但是统计起来也发现只有上百万跟上千万句,这个是不够训练一个专业系统。做法就是说我们是1亿4000万高质量的人工翻译的句对来训练基础模型,在基础模型上再加上细分领域的专业的语料进行增量训练。


昨天王总说到,和一位朋友一起合作开发医学细分领域系统,那位朋友就是我。如果各位感兴趣可以联系王总,也可以联系我进行测试。医学方面的同事,其中IT行业的,我们的应用是昨天陈总说到,华为在这方面也做了很多。其中他们的有8个系统也是我们提供的,其中中英的IT和通讯我把它合在一起了,这个系统质量也是非常好。


整个专业细分领域的系统,凡是我们用的比较多的这些系统,改进打磨的就比较好。也是我们的人工翻译团队在翻译过程中发现错误,会给到我们的后台研发,后台研发再从后台把模型给改进了。


机器翻译整体来说它目前还是个孩子,还在成长过程中,一个还需要我们去帮助他。但是就我自己的经验来说,他是一个很好用的工具,你把它视为trados一样的工具就好了,不能替代人工译员。它只是一个学习的过程,能够把我们过去的积累给你用另外一套逻辑帮你展现出来。


我再介绍一下我们专利的细分领域,专利是中英、中日、中法、中德、中韩的专利系统业绩评测还不错;医学系统我们开发了,还开发了一个除了西医系统,还开发了一个中医系统。因为我自己是安徽人,比较有家乡情怀,就想开发一个中医药系统,能够帮助我们国家现在一带一路倡议走出去的,能够助力中医药在海外的发展。


其中财经翻译系统也是得到全球知名公司的一个好评,这是我们在专业细分领域,这个网站没有免费对外开放,但是感兴趣想测试的同事可以在网上申请测试,会给两周或者是一个月的测试时间,同时也可以联系我或者我们公司的任何一个同事,这是在机器翻译方面的新领域发展。


因为我们自己是翻译公司的基因,所以我们也研发了一个结合CAT的一个系统,这个框是文本翻译,这里是文件翻译,也支持各种格式pdf、Excel表格、PPT、data各类文件。这一点也向陈总他们学习。然后这个是一个管理系统,就是说我们上传翻译多少内容,多少字会在这里做记录。同时我们也开发了和trados一样的一个记忆库,你在翻译的时候可以进入你的默认记忆库,同时你也可以定制你自己的专属记忆库。


对于专业术语,我分享一点点我的专业术语经验,这一个机器翻译你拿来以后,尽管有这个术语定制工具,可以帮助你很好的去翻译你的专业术语。但是如果机器翻译自身翻译正确的话,你就不要定制数据库了,如果你定制数据库,它会干扰机器翻译的正常翻译。只有在你的术语库翻译不正确的时候,你再使用定制术语库。比如说我举个例子,正常来说我们说5G的发展非常迅猛,这个已经差不多正确了,之前没有使用,可能需要修改。我觉得它是一个小写的,把它定义为大写,要加个标点符号,提交后,翻译正确后,其实它已经进入。你可以在自己计算机上建立你的默认记忆库,也可以在你公司的服务器上建立默认记忆库,等你再翻的时候它就使用正确了。但是如果你使用术语库不正确,定制术语库的时候,如果这个系统本身已经翻译正确了,就不要做多余的动作去定制。


这是我简单分享一点术语定制对于机器翻译的影响,只有在不正确的时候在定制,否则它会影响整个机器翻译的效果。


这是我们的一个叫翻译管理软件,结合了CAT和MT的一个工具,我们的CAT工具后面加QA的功能也在近期会上线,也是基本完成。


这是整个一个云译基础工作的介绍,也是和其他众多做机器翻译公司的一样,都想进入同传系统或者是硬件市场。人工智能未来的发展,就是说在其他各个环节都进入人工智能阶段的时候,可能后台再接入人工。无论如何我们机器翻译的发展一定要跟得上,各行各业的人工智能的发展脚步,所以我们也做了一些在线和离线的人工智能产品。


知识产权这方面我们公司做的不够好,是由于史晓东教授他对知识产权和专利关注度不够,最近也刚刚改变了他的看法。


那么再看一下云译史教授团队整体参加的比赛。2019年CCMT是中国机器翻译大会,中国机器翻译大会它大赛他比赛得了语音比赛第1名,也就只参加了这一项。18年也是英日汉多语言得了第1名,WMT是2017英汉和汉英的人工评测,是和SOGOU并列第一。两个自动评测都是第2名,其中中英的当时搜狗是高过我们一名,英中我们高过它一名,系统都是人工评测并立第一。17年的中国第一翻译大赛的藏汉和维汉也是取得了第1名,亚洲机器翻译大赛的英到印地语,目前还保持在第1名的位置上。WAT的英到印地语,不知道为什么没有太多的人去挑战这个地位。获奖我就不说了,这一点我刚才给大家演示过了。


我这里补充介绍一下网页翻译,我们可以把整个网址拷进我们翻译链接,选对源语言和目标语言,就自动把整个网站给翻译成目标语言。


另外为了适合我们公司的发展也做了一些插件,比如trados插件、office插件、屏幕取词插件、还有WPS插件。屏幕取词插件,我可以在这里,比如说翻译一两个字,这个机器上是装了插件的,在原文之后插入译文,然后请稍候再翻译。它的应用范围,就是我们做一个图形的时候,如果里面有可编辑的文字,把编辑的文字,不用敲就选中它,然后点中这个插件,就可以在那个图中的文本框进行编辑里面的文字。我觉得它的应用范围可能在不太适合全文上传翻译,或者是整段拷出来翻译的时候。


再介绍一下我们的同传系统,我们都知道讯飞、腾讯包括中译通都有同传系统,同传系统的原理是把我们说话的声音转换成文字,这个是语音识别,文字在进入机器翻译系统,这个环节是机器翻译,然后翻译出来文字,再用text to speech把它读出来,这样子就是我们听到的语音机器翻译。整个一个环节:语音识别。我们自己做的是文本翻译,所以在语音识别这一块用的是云之声技术。但是语音识别它是分成两部分,一部分是语言模型,就是说一个声音转换成文字的时候,它会有很多个因素,怎么把这些因素组成一个很好的句子,这个是语言模型。


语言模型是我们自己就是史教授的一个博士生开发的,比如说我们同声传译,在说到同传的时候,根据上下文,它翻译成同声传译的传。所以这个是语言模型这一块,包括我像我讲话就特别不适合机器翻译。然后就做了把这些口语词口头禅给去掉,包括重复的就都给去掉,这是机器同传。


目前来说由于说话的声音不能达到百分之百正确,我们行业都知道,如果有人说错一个字出来,结果都不可能正确。所以我们做了一个人工修改的页面,发言嘉宾把他说的话转到主客户端,客户端到我们同传服务器进行语音识别的分解和翻译分解,同步到人工修改的页面里面。我们可以快速的把很政治性的错误,或者是很明显的、很意外的那种错误修正或者删掉,然后再反过来去刷新投屏。加了这个技术以后,我们就做了最近收费的项目,已经做了十几场会议,免费赞助的项目也有十几场会议,所以这个技术目前的发展是阶段就是这样子。同时同传系统我们做了一个扫码,在你手机上终端会显示一句一句的,你可以选择源语言,也可以选择目标语言,也可以选择双语对照的。


这个就是我们在一次真实的会议上把它截屏下来的,可以看到它的质量准确度还可以。这个多语言系统,目前我们语音识别只有中英,输入端只有中英,但是输出端我们有多少系统就可以输出多少。目前已经做好的是,联合国的6个语言,中文或者英文输出端可以是联合国的6个语言。


我们自己做了一个思路,翻译机没有在市场上发售,我想判断一下市场的反应,最终的反应就是说离线的翻译机是一个需求,也成为很多翻译机调用到后台。比如说这个系统它调用我们的医学后台。目前有一个翻译机,在调用我们的旅游行业后台,我们成为众多的硬件厂商的供应商。


这是我们接下来最近要发布的一个云译翻译平台,还要再稍等,可能一两个月的时间再对外发布。


这是史老师的另外一个技术,简繁转换平台,如果有做简繁转换的,这是一个免费开放的,后面XMU是厦门大学,可以直接进入这个平台,应该质量水平在国内还是第一,在国际上也还是第1名的成绩。


这个是跨语言搜索工具,这是史老师的另外一个技术,我们想搜索俄语的,比如说我们是卖鼠标,我想知道俄罗斯有哪些鼠标,把俄罗斯这些网站输入,用中文输入鼠标,然后把俄语的相应的网站都搜索出来,这是跨语言搜索引擎系统。


再说一下整个一个翻译行业,不管是传统还是机器创新行业,从目前我的感受来说还是属于蒸蒸日上的,随着我们国家的一带一路的倡议,越来越多的企业走出去,包括国企带头走出去,我们民营企业走出去。相信我们翻译行业在未来的很多年还会生活得很好!


所以不用担心机器会把我们替换了,我们可以把它作为我们的工具,帮助我们更好的服务我们的客户,这是我的感受。也非常期待和在座的同行大家一起来合作,一起服务好我们的客户,给我们客户带来更多的增值体验。


这是我的整体汇报,感谢大家的聆听!

2019语言服务产业链供需合作交流峰会
暨中国翻译协会翻译服务委员会年会
观看大会全程直播盛况

丁丽
中国翻译协会本地化委员会委员、深圳云译科技有限公司董事长、深圳新宇智慧科技有限公司CEO。深耕翻译行业二十余年,致力于打造自然语言处理与机器翻译技术的研究发展平台,为全球用户提供领先的机器翻译解决方案。

《LSPSC 2019》专题栏目

【未经许可, 严禁擅自使用本站视频】TTV 译直播:语言服务专属 » 人工智能机器翻译技术与应用 – 丁丽
已有 18 条评论 新浪微博
  1. 头像 赶路人

    

    2月22日 09:49来自移动端 回复
  2. 头像 陈俊林

    2月18日 12:09来自移动端 回复
  3. 头像 铁马秋风

    NMT技术的巾帼!

    2月15日 05:38来自移动端 回复
  4. 头像 王颖

    你真棒!为你骄傲👍 👍 👍

    2月13日 22:58来自移动端 回复
  5. 头像 天文

    讲的很好,非常专业!专业知识,向您学习!

    2月13日 21:03来自移动端2 回复
  6. 头像 一蓑烟雨

    amazing

    2月13日 15:55来自移动端 回复
  7. 头像 Nicole 林丽香-口译

    [good]

    2月13日 15:03 回复
  8. 头像 徐魁

    赞👍

    2月13日 14:52来自移动端 回复
  9. 头像 &Neptune

    👍🏻

    2月13日 14:50来自iPhone 回复
  10. 头像 闫晓丽(vicky)

    👍

    2月13日 14:45来自iPhone 回复
  11. 头像 咕咕噜噜

    👏👏老师威武

    2月13日 14:45来自iPhone 回复
  12. 头像 雷蕾

    👍

    2月13日 14:42来自移动端 回复
  13. 头像 吴士军

    👍 💪

    2月13日 14:32来自移动端2 回复
  14. 头像 南国小妖

    为人类的文明进步和文化的传承将是一个有价值的事

    2月13日 14:29来自iPhone3 回复
  15. 头像 yi

    赞👍

    2月13日 14:25来自iPhone2 回复
  16. 头像 铁马秋风

    为人类的文明进步和文化的传承将是一个有价值的事

    2月13日 14:214 回复
  17. 头像 evena

    👍

    2月13日 14:19来自移动端3 回复
    • 头像 人好酒自香,一杯一世界

      很专业最棒的👍

      2月13日 21:56来自移动端 回复

关于我们联系我们