语言和术语标准化在现代社会当中的影响-Laurent Romary
人工智能时代口译技术应用研究
王华树 | 国内首部聚焦口译技术应用和教学的著作
新书推荐
口笔译教育与评价国际论坛 二号公告
在厦门大学百年校庆之际,邀您齐聚厦门、共襄盛举
论坛推荐
ISO/TC37主席Laurent Romary在语言服务标准化国际研讨会上的主旨演讲。
法国国家信息与自动化研究所主任、高级研究员、欧洲DARIAH工程研究主任。1989年获得计算语言学博士,1999年获任现职。目前从事半结构化文档,特别是文本和语言资源的建模研究。现任ISO/TC37“language and terminology"主席。2001-2011年曾任TEI—Text Encoding Initiative 技术委员会主任,2005-2006年参与法国国家科学研究院科学信息策略制定,2006-2008年加盟 Max-Planck Digital Library研究工作。
主旨演讲要点:
一、语言,新技术以及标准扮演的角色
1)语言资源:形式的多样性:
一级资源:文本,音频,视频,社交媒体等
二级资源:经编撰的,如词典,术语
经解析的,如句法结构,语义和语用
2)解析语言资源的新运用
翻译行业,语言学习
聊天机器人,如:“Siri,what was the previous address?”
多模式互动,如虚拟沉浸,现实增强(可用于外科手术,太空探索和游戏产业)
文档的管理和找回,如在欧洲专利局的运用
3)对可重复利用(开放)数据的需求
在教导机器学习算法上不可或缺
在跨厂商的情况中,语料库分散,互通性是可重复利用的关键
二、第一个例子:对指称的解析
1)不同的句子:指称,I ate [the apple]
复杂指称,I ate [(an apple), and (an orange)]
回指,I ate the apple. It was juicy
不清晰的指称,the one and the other
2)边缘现象:对于这类技术有兴趣的多为大公司
3)ISO指称解析的框架
对指称解析的数据分类:指称表达,词汇关系,语篇实体,宾语关系
序列化:基于文本编码规范
三、第二个例子:对数值的管理
1)度量单位的多样性:40℃,32 hours
2)GORBID-Quantities:分析识别文章中的科学数值,以ISO标准标准化
3)法国Istex项目:国家文档管理及发布平台,可以进行科学数值的搜索
四、标准化:开放知识的必备因素
1)可重复使用、共同使用的语言资源
跨机构的科研协作
公司内部的重复使用
2)覆盖现象广
机器学习技术的发展打开了广阔的未来
新兴技术在不断涌现,我们需要通过合适的标准来满足需求
3)避免标准化进程碎片化
ISO内部及标准化组织间的一致性
以上纲要仅供参考
研二实习生 Kay 编译
相关推荐
★★★★★ 5/5