“问诊”机器翻译-张春良
人工智能时代口译技术应用研究
王华树 | 国内首部聚焦口译技术应用和教学的著作
新书推荐
口笔译教育与评价国际论坛 二号公告
在厦门大学百年校庆之际,邀您齐聚厦门、共襄盛举
论坛推荐
“艺果杯”翻译技术大赛颁奖盛典
观看大赛全程直播盛况
“艺果杯”翻译技术大赛是由上海艺果信息咨询有限公司(上海艺果)举办,由翻译圈内项目经理参加的大赛,经过初赛、复赛及决赛,理论及实战项目比拼考核,最终一组(2名)项目经理胜出获得冠军(奖励为价值3万多人民币的专业软件及现金)。今年“艺果杯”为首届。
主办方“上海艺果”是一家专业的信息咨询公司,为企业客户、翻译公司、翻译团队及个人提供翻译项目管理、技术处理、技术支持以及DTP排版等专业服务。服务翻译行业从业者,提升翻译行业价值,帮助所有希望提升的语言服务企业、翻译公司、翻译团队和自由译者。
大赛目的:助力行业发展、推广翻译技术、提升翻译项目管理水平、汇聚项目管理精英人才
指导单位:语资网
组委会:包亚芝、左仁君、李艺峰、田惠才
专家委员会:崔启亮、师建胜、王华树、李艺峰、彭成超、李向东、乔溪、田惠才
主办单位:上海艺果信息咨询有限公司
协办单位:瑞科翻译
上海唐能
河南北极光
译马网
快译猫
Tmxmall
译直播
译讯科技
本地化人网
大辞科技
memoQ
小牛翻译
深圳云译
嗨翻网
华夷通
“艺果杯”颁奖盛典议程 | ||
时间 | 环节/流程 | |
上午(3小时30分钟) | ||
8:20-8:50 | 30分钟 | 签到 |
9:00-9:02 | 2分钟 | 开场视频 |
9:02-9:10 | 8分钟 | 主持人开场 |
9:10-9:15 | 5分钟 | 比赛准备,选手候场,主持人介绍规则 |
9:15-11:00 | 105分钟 | PPT展示 |
评委评分 | ||
评委点评 | ||
11:00-11:04 | 4分钟 | 主持人串词 |
11:04-11:08 | 4分钟 | 小游戏 |
11:08-11:09 | 1分钟 | 主持人串词 |
11:09-11:29 | 20分钟 | 终极PK |
11:29-11:31 | 2分钟 | 主持人串词 |
11:31-11:36 | 5分钟 | 现场抽奖 |
11:36-11:37 | 1分钟 | 主持人串词 |
11:37-11:40 | 3分钟 | 揭晓冠军 |
11:40-11:55 | 15分钟 | 颁奖 |
11:55-12:30 | 35分钟 | 大合影 |
中午(1小时) | ||
12:30-1:30 | 60分钟 | 午餐+午休 |
下午(3小时15分钟) | ||
13:30-13:35 | 5分钟 | 主持人开场 |
13:35-14:05 | 30分钟 | 信息化技术及人工智能能对语言服务行业的影响(传神企业语言解决方案负责人 李敏) |
14:05-14:35 | 30分钟 | From BD to DD:从大数据到深数据(中航工业研究员、坦克特级射手 张晓炜) |
14:35-15:05 | 30分钟 | 企业业绩暴涨,老板身心解放——如何提高企业老总营销力(慧百NLP营销专家 雅静) |
15:05-15:35 | 30分钟 | “问诊”机器翻译(小牛翻译 张春良) |
15:35-16:05 | 30分钟 |
传统翻译公司——AI 时代 新机遇(人工智能翻译顾问、经济学在职博士、北大语言工程硕士 刘劲松) |
16:05-16:35 | 30分钟 | Panel Discussion |
16:35-16:45 | 10分钟 | 撤场 |
评委(按拼音排序)
曹珍辉
VMware威睿科技有限公司本地化高级经理,负责公司所有产品的本地化,为全球客户提供更好的用户体验。专注于通过软件国际化标准平台来实现产品本地化的自动化、流程化,充分利用机器翻译(实现SMT到NMT的转换)来实现快速和连续交付。为保证质量,VMware通过量化人机交付的通用指标和机翻内容的预处理和后处理得以实现。积极参加国际和国内校企合作,多次在北京大学、北京语言大学、北京师范大学、外经贸大学、北航进行分享,在TAUS和LocWorld年会分享VMware新工作和新方向。
崔启亮
博士,对外经济贸易大学英语学院副教授、硕士研究生导师、国际语言服务与管理研究所副所长,中国翻译协会理事,中国翻译协会本地化服务委员会副主任,世界翻译教育联盟翻译技术教育研究会副会长,北京大学硕士研究生导师,南开大学硕士研究生导师,西安外国语大学“西外学者”特聘专家,《上海翻译》杂志编委。编著本地化与翻译技术学术与实践书籍6本,出版2本行业调查报告,发表论文30篇。
李梅
同济大学教授,博导。上海市科技翻译学会副会长、WITTA翻译技术教育研究会副会长。翻译作品200余万字。出版专著、译著6部。汉英译著《中国名园》获中国图书大奖。近年来研究兴趣聚焦机器翻译译后编辑以及技术传播。
刘劲松(Patrick Liu)
人工智能翻译顾问、经济学(在职博士)、北大语言工程硕士。曾任外企多语言翻译咨询顾问;语言学及翻译技术课程讲师;德国技术传播协会(Tekom)和中国标协技术传播认证 技术沟通(TC)培训讲师。
研究兴趣:人工智能;跨文化沟通;技术写作;多语言本地化
蒙永业
博士,北京悦尔信息技术有限公司董事长,中国语言服务40人论坛组委会主任;ISO语言服务标准工作组专家、中国工程建设标准专家库特邀专家;中国翻译协会口译委员会副秘书长、《口笔译人员基本能力要求》、《翻译服务 口译服务要求》等标准主编;河北大学兼职教授、河北民族师范学院客座教授、对外经济贸易大学、北京工商大学等大学翻译硕士实践导师。
彭成超
译马网首席增长官,四川翻译技术沙龙联合发起人,中国翻译协会标准《语料库通用技术规范》起草人之一。曾先后在知名本地化企业和传统翻译企业从事翻译、项目管理、本地化工程等工作。熟悉各种翻译技术工具和翻译及本地化作业流程,深谙翻译生产痛点与翻译技术应用之道。其主导设计的译马网已服务2000多家翻译企业,成为国内翻译企业的首选翻译生产平台。
张井
Tmxmall创始人兼CEO,现语资网副理事长,2013-2014年就职于百度钱包,担任百度钱包生活应用服务及打款技术负责人。2014年9月创立上海一者信息科技有限公司(Tmxmall),多次担任国内外重要语言服务行业会议的演讲嘉宾,担任2016、2018TAUS北京高峰论坛组委会成员,同济大学、上海对外经贸大学、对外经济贸易大学等多所高校MTI校外导师。
郑金凤
RWS(中国)副总经理。2007年加入全球IP语言服务公司RWS Group,在专利翻译、资源管理、项目管理等多个岗位工作。现负责公司运营管理及战略性校企合作项目,制定人才策略,规划校外实习基地的建设和运营。兼任对外经济贸易大学、西安交通大学等高校的MTI校外导师。
嘉宾(按拼音排序)
顾小放
中国译协翻译服务委员会副主任委员兼秘书长
多次主持本单位对外引进项目资料的翻译组织和管理工作;GB/T 19682-2005《翻译服务译文质量》的主笔人之一;ZYF《翻译服务采购指南 第1部分笔译》的主要参与者之一;ZYF《翻译服务报价规范》(口译、笔译)的参与者之一。
胡新华
知识产权出版社翻译事业部主任、副研究员。华中科技大学软件工程硕士。
1999年入职知识产权出版社,先后从事软件工程师,技术支持工程师,技术开发中心主任,翻译事业部主任等岗位。2001年作为主要工程师参与国内第一条专利文献数字化OCR生产流水线建设,该系统2003年实现专利文献历史档案全部代码化;2005主持中国专利数据初加工项目,该项目对中国专利文献著录项目进行了标准化加工;2010年主持国家知识产权局数字出版平台课题,首次实现非专利知识产权文献(图书、期刊、法院判例等)数据完成收集和一站式检索;2014年创建“I译+”品牌,建设首个专利文献互联网翻译平台——“I译+知识产权语言服务平台”,目前,该平台注册专业译员超过6000人,每天翻译50万字。
江伟
英语专业毕业。从事英中笔译20余载,完成翻译和本地化项目近万个,擅长以技术的手段解决技术的问题。活跃于国内外多个翻译和技术论坛,潜心研究生产力工具开发和流程优化。
江心波
快译点、BesTrans译百创始人,山东省翻译协会副秘书长,2012年创立译百翻译;2014年组建快译点智慧云翻译平台研发团队,并于2016年推出快译点个人版翻译辅助产品,2018年推出快译点智慧云翻译平台企业版。
李敏
传神语联企业语言(软件)解决方案负责人。2007年入职传神,12年间一直致力于计算机辅助翻译系统及翻译过程管理平台化管理体系研究和产品管理,曾主持“中国日报社中英文协同编译网络平台”,“中国体育多语信息传播服务平台”,“全民健身多语服务平台”、“中国新闻出版多语种语料库”、传神“TPM翻译项目管理平台”以及“企业多语言协同翻译平台”等多个大型互联网项目。
李向东
三河市语联翻译服务有限公司经理。公司由多名十年左右项目管理经验的项目经理组成,擅长处理格式复杂、文件众多、工期紧张的大型翻译项目。
李艺峰
艺峰讲师团联合创始人、传神语联资深本地化工程师,CAT工具高级咨询师、CAT工具培训师。多年实际项目运作经验,精通各种翻译工具。
刘小丹
四川译宝联科技有限公司快译猫市场总监。曾任职西安金科翻译服务有限公司副总经理。具有十余年从事翻译市场开发和管理工作经历,具有较丰富的翻译行业从业经验,对中国的翻译市场现状有较为深刻的认识,对翻译行业有独特的见解和领悟。
尚照发
上海大辞科技市场总监。深谙语言服务市场,翻译和本地化发展脉络。曾为多家行业公司、翻译与本地化公司、翻译技术公司、机器翻译公司、人工智能机构提供咨询。关注MTI教育、师资建设、学生培训与实习实训,上海对外经贸大学企业导师。
雅静
中小型企业内训策划讲师、悦力量联合创始人、中国一对多行销演讲成交高手、全国大学生创业就业导师、当代大学生心灵成长励志梦想导师。
张娟(Joanna)
唐能翻译深圳分公司总经理。大学毕业后留校负责外教招聘管理工作两年,后加入唐能翻译上海总公司,在客服和销售、项目管理,资源招聘和管理等多岗位上历经锤炼。2010至2018年曾任唐能翻译副总经理。
张晓炜
中航工业研究员、中国翻译协会会员、坦克特级射手。
长期从事武器运用工程及JLVC一体化联合训练体系研究,熟悉各型武器系统,对外军联合训练有深入研究。近年来,研究兴趣聚焦为军事装备与训练深数据分析挖掘。先后主持陆军“国际军事比赛装备数据挖掘与分析”及“陆战智能化综合训练系统”等项目。曾主讲外军留学生“坦克武器系统”、“武器射击学”等课程。核心期刊发表论文十余篇,翻译著作100余万字。获国防发明专利6项,软件著作权3项,已完成及正在进行的军委科技委、陆军研究院等项目10余项。
章建民
四川译讯信息科技有限公司副总经理。从事翻译行业市场销售近二十年,是四川译讯信息科技有限公司创立创建、公司产品市场开发创新主要成员之一。
朱小二
上海对外经贸大学翻译硕士。现任大辞科技、memoQ产品经理,翻译与本地化方案构架师,专注于企业语言技术应用和项目管理实践。
著有《memoQ实战》翻译项目实践手册,安庆师范大学外语学院校外兼职导师,教授《计算机辅助翻译》课程。
朱颖
唐能翻译公司北京代表处负责人。十年翻译行业浸润,十年服务外企大客户的经验,十年北京团队管理经验,带领唐能北京业务稳健增长,助力上海唐能总部快速发展。
左仁君
瑞科翻译有限公司联合创始人、总经理,语资网秘书长、中国翻译协会翻译服务委员会委员,中国翻译协会本地化服务委员会委员、江苏省翻译协会理事。15年语言服务行业从业经历,专注于客户关系管理、项目管理、翻译人才队伍建设和培养、翻译行业发展等方面的实践和探究。并有连续8年的翻译项目管理经验,为三星、三一重工等企业提供过翻译和咨询服务。现担任上海师范大学、南京师范大学、大连海洋大学、南京林业大学、沈阳建筑大学、上海海事大学、安徽工业大学等高校翻译专业兼职导师,多次受邀到全国近百所高校做专业讲座和课程。
陈凯
郑州点睛多语言翻译服务有限公司总经理,点睛DTP团队创始人。河南工业大学英语专业毕业,带领团队潜心dtp多语言排版11年,多次参与业界大型翻译项目,累计完成图纸30多万张,文档类400多万页。
张春良
国内规模最大的机器翻译产学研团队——小牛翻译团队创始合伙人、东北大学外国语学院副教授、MTI导师。
分享嘉宾:张春良
国内规模最大的机器翻译产学研团队——小牛翻译团队创始合伙人、东北大学外国语学院副教授、MTI导师。
我自己本人不是这个专业的,我们的团队是这个专业的。今天给我最大的感受,有可能我是在座的里面翻译技术最低的一个人,看到上午的选手,让我觉得很厉害。另外在整个翻译过程当中,每一个环节都需要很多的工作,并不仅仅是一个机器翻译在起作用。
下面我讲讲我的东西。第一个就是我来自与小牛翻译团队,这个小牛翻译对应的Niutrans,Trans大家知道什么含义,这个“牛”呢,第一个来自于东北大学有一个机器翻译的实验室,这个很多年的历程,积累了很多的经验。第二个含义2012年出来做了一家公司,叫做沈阳雅译网络技术有限公司,真正做的东西叫做小牛翻译。
这个话是2017年,刚才说2019年是未来十年经济最好的一年,过去十年当中最差的一年。实际上2017年开始,我们的微软全球的副总裁沈向洋就提到了,未来十年自然语言的处理合理解,这个有可能是人工智能发展的关键。之前有嘉宾也提到了,与图像的技术、语音的技术相比,自然语言的处理落后一些,我们从译员的角度来说,从2016年开始有了谷歌系统之后,我们看到整体的诗经翻译技术也在突飞猛进。
这个是机器翻译技术的发展里程,从1949年机器翻译正式被提出来,到现在70多年,这70多年也不是处于非常顺利的上升过程,而是反反复复的有几个起落。中国研究机器翻译老一代的老师,把规则的机器翻译技术叫做“傻子”。第二代机器翻译比较核心的我们叫做基于统计的机器翻译技术,这个技术SMT是利用比较大的数据,我们叫海量数据训练它,通过一系列的模型,生成无限多的翻译结果。然后我们还有一个语言模型,通过语言模型来去评价或者给无数多的翻译打分,把分数高的结果输出来,最后我们看到的就是统计系统产生的结果。之前大家用google百度翻译我不知道是不是有这个功能,谷歌会有一系列的翻译结果让你去选哪一个结果是最好的,实际上现在机器翻译也有这个功能,后边我还会稍微的讲到一些。
最前面的两个技术,不管是基于规则的机器翻译技术,还是基于统计的机器翻译技术,都是我们在“深度学习”这个名词提出来之前有的技术。但是这个技术大家不是很理想,总是被译员埋汰,埋汰有这么几个例子。我们可以看到右边给出来的技术的简单的讲解,规则,实际上跟我们想象的差不多的,比如说我想翻译说“我爱你”,那么一定要做到“我”是“I”有对应的相应关系,系统当中“我”做主语,这样就能够产生基于规则的及时翻译。这样的系统做起来非常累,累就是因为它一定需要人工的语言叠加和机器、程序员共同做一套系统,这两个人在一起合作,经常出现矛盾和摩擦,所以导致了很多时候相互之间看不起。当70年代的时候,当时做了语音识别,在实验室有一个老头叫嘉里尼特,他说我的系统可以上一个软件。 后面这两个就是基于实例和基于统计的,它是把整个的翻译过程都分成无限个翻译的步骤,这样做存在一个问题,之所以不好,前面的技术我们认为,是因为机器翻译过程,人为的把它翻译成几个步骤,比如翻译成词的对应、语法结构,生成英译文的时候判断这个生成的好还是坏,分成好多好多的步骤。真正的译员做翻译的时候,是不是这样,我觉得很少有人能够讲清楚。
到了第三个阶段叫做神经网络或者深度学习这种技术的出现,深度学习,这个是技术员告诉我的,具体的网络怎么运作的我并不了解。但是深度学习模型,它的数据表征,把数据生成向量,不是基于规则的进行翻译,而是处理词,每个原文和译文之间词的关系、语法的关系,人为的设定规则,基于规则设定规则,基于统计设定语言,它是词与词的关系。从神经网络开始,模型学的并不是词跟词的关系,而是学向量之间的关系,这个显得就深奥了。
现在的神经网络模型,我们称之为叫做端到端的模型。这个模型好处就在于,直接的把原文和译文,我们做训练数据的时候,训练模型的时候,原文和译文生成完整的向量,而不是像之前那样做分词、做步骤的切割。
当然了在神经网络最开始的模型里面,大家发现句子变长之后,网络学习的能力会变差,甚至跟慢慢统计一样,只要句子长一点,数据结构就会混乱有个学者引入一个机制叫做多维的机制,就是把长句子整个的结构调的要比原来漂亮很多。
现在从有神经计算机网络技术开始,第一个叫神经元网络技术,这个把一个词一个词连成一个向量,一个字一个字变成向量。第二种叫做词眼的,或者叫做…我忘了,就是把训练的数据变成一块一块的信息去训练模型,所以说它的效果会更好一些。但是我们现在做了最流行最主流的神经网络的模型,我们用的叫做基于自注意机制的模型,好处是把整个句子变成一个向量,在这个模型里面会把整个句字变成向量,这样就可以把巨资当中,即便第一个词跟最后一个词相关联的关系都能够捕捉到,它的效果好的更多一些。现在所有主流的,不管谷歌的还是其他的,都是会采取基于自注意机制的神经网络模型。
现在的神经机器翻译达到什么水平呢?这个是我们自己的系统。大家看时间,这个是我来之前从人民网上找到的两个新闻做了一下翻译,不管是英中还是说维吾尔到中文,确实翻译的不错的。根据现在的模型,只要说我有足够的数据,我就可以能够做出来一个效率比较好的信息翻译系统。
我们经常讲到说,衡量一个译文的好坏,经常用三个标准,叫做“信达雅”,统计翻译技术我们顶多大多“信”的程度,就是把一个句子当中包含的各个词翻译准确,但是慢慢有可能打不起来了,句子混乱。神经机器翻译能够达到“达”的程度,当然和人工要求的或者最高水平的人工要求的“雅”的水平可能还是差的比较多的。
实际上神经机器翻译技术,虽然现在很不错,效果很不错但是它也并非是我们最终的机器翻译技术或者纯自动的翻译的解决方案,因为它也实际上存在了很多的缺点。比如最让人诟病的就是,刚才有人也提到了,现在的神经网络是黑盒,确实如此即便是发明神经网络的,都没有完全理解神经网络的机理是什么。我们的团队也是一样,为什么说这样子神经网络训练出来的效果就特别好,或者通过什么方式干预到,现在手段还是非常非常少。
到目前为止整个神经网络机器翻译技术,仍然是一个基于统计,而不是像我们所说的像人类大脑那样交换信息、开个会。这个我给的例子,第一个是我们自己的,第二个就是谷歌的,通常来说,一般来说用谷歌遭到的非议少一些,自己的不好也说的过去。
下面看一下在目前的,或者说最好的神经机器翻译技术所能带来的译文到底存在什么问题?第一个漏译,现在基于自注意力机制的技术,包括我后面提到的错误效率很多了,但是之前是不好的。第一个是我们自己的结果,之前在中央电视台《智能机器人》翻译了这块,说它们的机器能翻,然后我试了我们的,一看不行。试了一下谷歌和其他的,也都不行,为什么不行?这个里面对于我们人来说,对于在座的人知道“过儿”是一个人,但是机器不知道,机器里没有“过儿”这个人物,他不知道,所以他不知道就容易把这个内容删掉漏掉。另外向“过过过儿”,这个也是正常文章里面很少提到的,所以这样的结构翻译的时候也容易漏掉。
第二个就是重复翻译,这个也会偶尔发生。我记得一个例子,去年除了谷歌和我之外,我们看到报道当中的例子,里面就有很多这样的单词不断的重复,这是为什么?这个原因在于,现在我们所谓的NMT神经机器翻译模型,从本质上来说称之为生成模型,它的生成能力非常非常强,强到你必须把它控制一下,否则它会生成无限多的让你完全意想不到的东西,表现的方法就是某个词不断的翻译。
前面两个就是模型的问题,神经机器翻译的模型不可能完全避免这样的东西,我觉得很多人可以避免的,但是在我们来看这个机器翻译的结果是比较差的,所以人可以避免这个错误,机器翻译避免不了,人比机器还是做的好的。
第三个就是术语误译。比如说road and belt,后来腾讯做技术解析的时候,在它的文章里提到了,当时的发言人说的是road and belt,我们听到的是bed and road。这个你看一下小牛翻译的和艺果杯,这个在谷歌的机器翻译里就训练的不行。我们系统有一个可以进行人工干预的东西,我可以往系统里添加术语词典,这个对于译员做翻译的时候是非常有用的。这样的东西很简单,没见过的东西就翻译不过来,跟我们人是一样的。
第四个就是数字、时间、日期。今天上午我也看到,在我们做翻译各个项目自动化处理的时候,也经常这些东西会出问题,实际上对于机器翻译来说,这些东西经常出问题的。比如说去年的时候,挪威代表团想买500个鸡蛋,挪威代表团收到1.5万个鸡蛋,这个就是谷歌翻译背黑锅。我们组里有翻译人员,他们在系统里可以校验数字。第一个谷歌把万去掉了,0变成万。我们的系统从万到million,我们原文是17.0634,我们译文变成176634。在人看来这些东西很简单,但是机器很麻烦,因为机器的模型里没有数字概念,数字概念一定在模型里做特殊的机制进行处理,只不过有的处理的好一些,一些差一些。
第五个篇章指代。对于人来讲,前面某个人或者后面某一个代词,或者前面一个名词和后面的名词之间会形成关系,有些时候两者是等同的关系。但是对于机器翻译来说没有这个概念的。比如说我们先看第一个例子,连云港和港城英才计划,这个港城和后面的连云港是一个城市,但是机器翻译翻译成了香港,这个前面的是谷歌的。另外第一段当中出现李克强,第二段出现李岚清,人知道是李克强,但是机器翻译成了李岚清。现在的机器翻译是用海量句对训练出来的,没有关联信息,导致翻译的时候,虽然这是一段话,那么前面第一段、第二段、第一句第二句,但是他们在翻译的过程中是把它独立翻译出来的,没有作为一个整体。现在也有人在研究篇章级翻译技术,我们处理原文的时候,把前面的“李克强”和后面的“LI”做一个关联。后面的译文也可以做处理,也可以通过其它方式做补救,并不是说完全干预的模型本身。
第六个领域不适用。换句话说我们通用的机器翻译系统,可能在某些垂直领域里表现的非常差劲。比如说第一句话明显是体育领域的句子,这个也是谷歌的,下面是我们的。有些说挽救了10个破发点,或者保住了10个破发点,但是后面的match和final game就翻译不出来,所以模型训练的时候可能关于网球的知识就没有学到,没有训练到。当然我们的办法的话就是多找体育领域、网球领域的数据去训练它,只要是数据充分的话,现在模型的学习能力确实还是很强的。
第七个就是译文语义错误。这个是炜总朋友圈的例子,就是加州路上看到一个路牌,想让它翻译一下。如果你血液里究竟含量0.01—0.07的时候就是酒驾,谷歌翻译成是嗡嗡驾驶,我们的系统也是翻译成嗡嗡驾驶员,我没有看到哪个机器能够翻译出来。参考译文第四个是我写的,反正大概意思就是喝酒不能开车,这种情况怎么办?机器做不了,对于我们的系统来说我们直接把原文拿出来,人去给出一个正确的答案塞到机器库里下次就能翻译了。除了这种办法,机器对于外部的人来说还没有办法处理,机器还不可能完全达到人的去查资料、求证、分析的结果,到底译文是什么意思的程度。我不是搞机器翻译技术的,我知道我们在训练机器翻译的时候,到的句子大部分都是指令,没有意译,如果直译的训练,让它意译的翻译是不太可能。意译的语句训练的话,极有可能模型会更有意义。
第八,小语种机器翻译。这种主要体现在越南语到中文,这个是我们最新做的一个,也是基于神经网络的机器翻译技术,做的最新的系统。后边对应的结果,虽然读起来大致的意思是有,但是仔细看的话,会觉得有非常多的问题,具体为什么,就是咨询稀缺,训练数据稀缺,中间的子段可以找到非常多,我们的训练以亿级为单位训练的,我相信国内的所有的巨头的计算系统都比我们用的训练与数据多的多,说白了我们还是比较穷一点,他们比较有钱,他们能够买或者搜集到很多的数据,我们这方面会吃点亏。但是即便这样,所有的系统都会朝着一级系统去训练,我们越南语到中文的,具体数据不说了,会小好几个数量级。这种因为学艺不充分,应用的效果就很差。当然也会有其他的办法补救,即便是补救,如果没有高质量的数据训练,效果也出不来。这个是2017年微信的机器翻译系统,把“黑老外”给翻译成这样了。另外在以色列耶路撒冷在推土机前面拍一个照片上面写“good morning”,结果翻译错了,被警察逮起来了。第三个是twitter上,性别中性,前面主语变成“HE”,说是有性别歧视,其实是数据的问题。另外一个就是《高棉时报》里说这个词翻译成“上海”,这是不行的。这四个例子都跟训练数据的缺乏以及训练数据的错误有关系。
机器翻译有什么毛病?我们通过用的数据训练出来的系统,翻译垂直领域的材料的时候就会有很大的问题。第二个专业术语低频词汇如果出现在机器翻译里,要么漏译要么翻译错误。第三个就是小语种的翻译不行,现在差的很远很远。第四个就是如果句子结构长度增加、结构变得复杂,即便现在有多维机制,它的结构也会变出现很多的毛病。除了神经翻译系统本身有问题之外,神经网络模型想要达到好的译文,生成好的译文,一定要有非常高质量的数据,而且越来越好。
怎么样做一个很好的神经翻译模型呢?大概有这样几个方式吧。第一个当然就是你的模型,我们自己做自己研发,当然我不是说整个技术框架是我们自己的,技术框架是国外的,但是代码都是我们自己写的,我们技术团队跟其他的技术团队有区别的地方,这是一个,就是模型一定是最新的。第二个数据一定要越多越好,质量越高越好,我们自己内部有一个专门做信息的团队,我们发现用五六亿数据训练的模型,有可能还不如用2亿数据去训练,原因就是那个数据当中存在很多的问题,我们需要有人专门把这些问题解决掉,把差的数据替换掉。另外一个发展就是说垂直领域,这个意思比较简单,每一个人都有每一个人擅长的领域,你不能让它什么都做。另外想要用好的话,我们用的技术并不仅仅是文字转文字,现在我们有纯文档翻译、图片翻译、语音翻译等各种方式。第四个就是刚才我们讲到了,情境下句子翻译的时候,要注重前后词与词的关系,以及篇章的关系,如果想要提高机器译文质量的话,篇章机器翻译是重点。当然后面除了专门针对机器翻译模型的技术改进之外还有功能模型,比如刚才提到是不是可以当某一个术语在我的训练数据里面没有训练的时候,我迅速的把这个数据加进来,把小牛翻译、艺果杯这样的词加进去,如果加进去的话让人觉得质量就高很多。这是我们认为怎么样做一个更好用的机器翻译模型。
关于机器翻译技术,并不仅仅能够翻译一从种文字到另外一种文字的转换,还可以做很多其它事情。今年春节之前我们做了一个,到我们实验室实习的学生,他们是研一的学生,三周时间做了这样一个小东西,做对联,只要你随便写一个上联,我们的系统自动生成下联,这个跟翻译系统差不多,我们机器翻译的时候就是一个中文句子一个英文句子,对联的话就是一个上联一个下联,你给出任意新的原文生成一定的结果,所以你随便命名任何一个上联,这个系统就能够生成新的下联。我给出这个图是史老师根据我名字写的,这个比较模糊。另外一张图也是清华大学利用类似的技术,做的写诗的系统叫做九歌,大家可以在网上查查,技术做的不错的。
另外校对,一个错误的原文,一个改正的原文,这样训练系统,就可以生成自动的校对,这个就是技术能力。
今天关于技术我就讲这么多,作为小牛翻译来说,我们现在的目标就是打造最好的机器翻译发动机,为更多的同行、更多的同事服务。谢谢大家!
相关推荐
★★★★★ 5/5
太棒了,喜欢张老师。