机器翻译优质语料批量挖掘系统与机制-阿里巴巴达摩院


人工智能时代口译技术应用研究
王华树 | 国内首部聚焦口译技术应用和教学的著作
新书推荐


口笔译教育与评价国际论坛 二号公告
在厦门大学百年校庆之际,邀您齐聚厦门、共襄盛举
论坛推荐

 

施杨斌,复旦大学计算机硕士,阿里巴巴高级技术专家,目前担任阿里巴巴达摩院翻译平台语料和解决方案方向负责人。语料方向主要负责阿里机器翻译语料数据获取、清洗、挖掘以及系统化建设工作。解决方案是将阿里翻译技术能力进行整合、服务化,解决阿里巴巴国际化过程中的语言问题。

一、关于阿里巴巴
1)阿里巴巴集团:一个面向众多国家的多元化互联网科技电商公司
主要任务:为客户提供跨境贸易的电商服务
2)机器智能技术实验室:达摩院四大实验室之一,主攻人工智能领域,包括四大方向
语音技术:语音识别、文本转语音
自然语言处理:问答系统、语义分析、机器翻译
图像/视频处理:目标检测/追踪识别、多模态分类
深度学习&决策优化:预测、道路管理
3)机器翻译技术小组:专注MT和多语言NLP的前沿技术
支持21种语言和43种语言对
支持阿里巴巴超过40个业务部门和170个应用
每年访问请求超过2500亿,每天访问请求超过70亿
提供多场景、多模态的翻译服务

二、大规模高质量语料平台的建设
1)需要的数据类型:通用性(新闻、经济、金融)和专业性(电商)
2)语料获取流程:高质量双语网站→网页抓取→数据处理(清洗、挖掘、应用)
3)建设工作的两个方面:系统和算法
系统:技能化、自动化,具高扩展性和高可用性
语料自动获取平台,积累超22万高质量双语网站,可以快速形成新语种的扩展
算法:多语言NLP技术体系、语料过滤(网站及内容)、领域内数据挖掘

以上纲要仅供参考
研二实习生 Kay 编译

相关推荐
5/5

原创视频版权为主办方及译直播所有,请勿擅自使用
4

评论:

2 条评论,访客:0 条,站长:0 条

0%好评

  • 好评:(0%)
  • 中评:(0%)
  • 差评:(0%)

最新评论

发表回复