Python 3:语料库技术与应用

价值:45元 剩余:0

所需积分: 1200 积分

暂时缺货 直接购买>>

我怀着极大的兴趣通读了陆晓蕾博士的新著《Python 3:语料库技术与应用》。语料库是为一个或多个应用目标而专门收集的、有一定结构的、有代表性的、可被计算机程序检索的、具有一定规模的语料的集合。语料库应该按照一定的语言学原则,运用随机抽样方法,收集自然出现的连续的语言运用文本或话语片段来建立。从其本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用总体。

语料库技术和应用是重要的语言学研究手段,但是,在已经出版的语料库著作中多涉及语料库的应用方面,关于语料库技术的著作还不太多见。

从语料库研究的实际情况看来,语料库技术是不可忽视的。我曾经说过,为了适应信息时代语言学研究的新发展,语言研究者有必要进行更新知识的再学习,努力完善自己的知识结构,这应当是信息时代的语言研究者责无旁贷的任务。人文科学背景的语言研究者可以先通过学习利用一些编程手段和技术,从语料获取入手,逐渐获得利用计算机计算语言的能力,使自己成为文理兼通、博学多才的语言学一代新人。

如果搞语言研究不使用语料库或概率,很可能就只能使用自己根据“内省”(introspection)得到的数据,这是“第一人称数据”(first person data),在使用第一人称数据时,语言研究者既是语言数据的分析者,又是语言数据的提供者。“第一人称数据”主观性很强,往往见仁见智。

使用根据“问卷调查”之类的“诱导”(elicitation)得到的数据,这是“第二人称数据”(second person data)。在使用第二人称数据时,语言研究者不充当数据的提供者,数据需要通过“作为第二人称的旁人”的诱导才能得到。

如果使用语料库的数据作为语言研究的数据来源,那么,语言研究者就不再充当数据的提供者或诱导者,而是充当数据的观察者或检验者了,这种通过“观察”(observation)和“检验”(verification)得到的数据是“第三人称数据”(third person data)。这是2000年Widdowson在他的论文The limitation of linguistics applied中提出的看法,值得我们借鉴[1]

当然,如果使用第三人称的观察数据,语言学研究者同时也可以充当数据的“内省者”或“诱导者”,所以,第一人称和第二人称与第三人称是难以分开的,第三人称方法显然是比较科学的获取数据的手段。我们认为,语言学的一切知识,不论是过去通过“内省”或“诱导”得到的知识,最终都有必要放到语料库中来“观察”和“检验”,决定其是正确的,还是片面的,还是错误的,甚至是荒谬的,从而决定其存在的必要性,决定其是继续存在,还是放弃其存在,我们这一代语言研究者别无选择。

在大数据(big data)时代,尤其是近年来的互联网(web)技术的日新月异,丰富的语料资源变得唾手可及。然而,使用传统的基于“内省”或“诱导”的方法来获取语言知识,犹如以管窥豹,以蠡测海。这种获取语言知识的方法不仅效率极低,而且带有很大的主观性和片面性。语料库语言学提倡建立语料库,在计算机的辅助下,使用统计的方法或机器学习的方法,自动或半自动地从浩如烟海的语料库中获取准确的语言知识。随着互联网日新月异的发展,互联网上有着无比丰富的文本语言数据,其中有经过标注的结构化的语言数据,也有未经过标注的非结构化的语言数据,我们可以从互联网上,使用语料库技术,从这些大量的语言数据中自动或半自动地获取客观而全面的语言知识。这是语言学获取语言知识方式的巨大变化,在语言学的发展历史上具有革命性的意义。

我们应该敏锐地注意到这样的变化,与时俱进,努力学习语料库技术,逐渐改变传统语言学中获取语言知识的手段。该书除了讲述语料库的应用之外,还讲述了语料库的技术,这是难能可贵的,这也是该书最突出的特色。

该书使用Python来进行语料库的获取与分析,Python作为一门高级语言,功能十分强大,易学易用,在语料获取和分析方面具备得天独厚的优势。作者选择Python作为工具,乃是明智之举。

由于该书强调讲述语料库技术,实践性很突出,建议读者上机上线进行实际操作,切实地掌握这些技术,与时俱进,自觉地进行知识更新的再学习。读者在学习这些技术的时候,希望注意语料库的版权问题,遵守网络ROBOTS协议的有关规定。

陆晓蕾博士是学文学出身的,几年来,她自学编程和语料库技术,学会了Python语言,还在课程中建设网站以提高效率。她的这本《Python 3:语料库技术与应用》,是她近年来在语料库研究实践深入思考的产物。语料获取与应用是个实践性特别强的工作,该书以大量的事例代码,带读者进入代码的世界。该书在平时也可以作为读者案头的一本Python工具书。在介绍语料的同时,陆博士还详细论述了网络爬虫相关的法律协议和常识。

作为数据驱动的工作,无论是在统计机器翻译还是翻译质量评估等自然语言处理任务中,都缺少不了高质量语料和语言研究者的参与。语料库技术把语言研究者从艰苦繁重的手工劳动中解放出来,使语言研究者可以集中精力来研究和思考其他重要问题,这对于促进语言学研究的现代化具有不可估量的作用。在参与这些系统的研制过程中,语言研究者应当努力地学习计算机算法的理论和技术,不断地进行更新知识的再学习。

希望读者在阅读了该书之后,积极地投身到语言库技术的研究工作中去,为语言学的新发展贡献聪明才智。

 

教育部语言文字应用研究所

202011月于北京后拐棒胡同

[1] Widdowson, The limitation of linguistics applied, Applied Linguistics, 2000,21(1), 3-25.

本书简介

本书介绍了基于Python 3的语料库相关技术与应用,内容包括语料自动获取与语料分析实践。全书分为理论篇和实践篇,理论篇主要介绍了如何将Python 3应用到语料自动获取、存储与读取、清洗与预处理、语料检索与分析等典型应用场景,其中第4章还涉及部分自然语言处理的内容,包括情感分析、命名实体识别等;实践篇主要从开发环境配置出发,以IMDb为例,阐述了影评语料的自动获取和基于机器学习的文本分析方法。从语料的获取到分析的整个流程中,作者希望能够在理论和实践上传达“语言+技术”的理念。本书主要适合想要了解语料自动获取和语料库技术的研究者或爱好者。

作者简介

陆晓蕾,厦门大学助理教授,硕士生导师,复旦大学博士,主要研究兴趣为语言智能与翻译技术。
倪    斌,中科院计算所厦门数据智能研究院算法工程师,同济大学理学硕士,研究方向为机器学习与自然语言处理。

相关推荐
5/5
原创视频版权为主办方及译直播所有,请勿擅自使用
已有 7 条评论 新浪微博
  1. 头像 随遇而安欢乐时光

    书收到了,谢谢!

    1月26日 08:16来自移动端 回复
  2. 头像 随遇而安欢乐时光

    还得几天发货吧?

    1月20日 17:09来自移动端 回复
  3. 头像 随遇而安欢乐时光

    上一本的书我看了,内容真好,能随着这个平台一起学习,又获得了这么多的学习资源,真的很感激。

    1月19日 09:36来自移动端 回复
  4. 头像 Debbie

    好难中奖

    1月17日 09:54 回复
  5. 头像 Nick

    好书(✪▽✪) 学习啦~

    1月15日 23:11来自移动端 回复
  6. 头像 随遇而安欢乐时光

    又兑换了一本书

    1月15日 18:52来自移动端 回复