
最 低 价:¥38.50
| 近年来,统计自然语言处理(或称统计语言学)异军突起,现已成为自然语言处理研究中的主流。在统计自然语言处理学科成长的过程中,有四个因素起着推动作用: 1. 由于计算机硬件的发展,使大容量的存储和高速计算已经成为可能; 2. 由于计算机网络的普及,大量电子文本在网络上的涌现,使语料的获取不再困难; 3. 机器学习学科本身的发展日趋成熟,并在许多领域得到了广泛应用,因此它在自然语言处理中的应用已经成为很自然的事情; 4. 由于自然语言本身的复杂性,即使是语言学家也很难用纯粹的人工规则(或规律)来刻画它,这就迫使我们从实际语料中学习语言规律。 统计自然语言处理的研究涉及了传统自然语言处理的各个方面,例如语言分析、机器翻译、信息检索、文本分类等。可以毫不夸张地说,统计学习方法的引入大大促进了这些领域的研究和发展。目前国内几乎所有著名大学的计算机系都在从事这方面的研究(或开设了类似专业)。但是,系统地讲授或阅读这方面的专著并未得到学术界同行们的重视。在一次学术会议上,某校一位教授深有感触地说,“研究生在校学习期间一定要认真读一本专著。”我们对这位教授的发言深有同感。研究生们一定要看最新的参考文献,包括学术会议文章和杂志文章,但只看这些资料,不看(或学习)一两本专著,所学知识可能是支离破碎的,也未免有急功近利之嫌,尤其是对一些新兴学科更是如此。在这样的情况下的研究往往底气不足,不容易出一些像样的成果。在学术交流中,往往大家没有共同的语言,甚至闹出笑话。 本书是一本系统介绍统计自然语言处理(或统计语言学)的专著,在国外已经被许多大学用来作为教材。在国内,大家已经开始认识到了这本书的价值,不少大学将本书的英文版作为研究生教材。将这本专著翻译并介绍给国内广大从事自然语言处理研究的读者,具有重要的现实意义。本书覆盖了统计自然语言处理的各个领域中最重要的主题,内容详尽,层次清楚。无论是对于从事信息检索、机器翻译、文本分类和语言分析等方面的研究的人员,还是对于计算语言学专业的本科生和研究生,本书都有着非常重要的参考价值。 本书由清华大学计算机系的苑春法组织翻译。苑春法长期从事统计自然语言处理相关领域的研究和教学工作,对该领域里的问题有一定深度的了解。参译者也都在该领域里具有一定的研究基础和经历。本书第2章和第13章~第16章由李庆中初译,第1章和第5章~第8章由王昀初译,第3章和第9章~第12章由李伟初译,前言部分和第4章由曹德芳初译。最后,全书由苑春法负责统一修改、审阅并定稿。在翻译本书的过程中,大家力求忠实于原著,在此基础上尽量把概念表达准确、清晰。黄昌宁教授对于本书的翻译工作给予了指导,闻扬、周剑辉、徐薇、翁耀、钱冬蕾和林静等人也做了部分内容的翻译和辅助性工作,在此一并表示感谢。 本书采用英文版第5次印刷的版本进行翻译,已经对照作者在网站上提供的勘误表对相关内容进行了更正或注解。由于译者水平有限,翻译中难免会出现一些不妥之处,希望广大读者批评指正。 |
|
|
| 第一部分 基础知识 第1章 绪论 1.1 理性主义者和经验主义者的方法 1.2 科学内容 1.3 语言中的歧义问题是自然语言难以处理的原因 1.4 第一手资料 1.5 深入阅读 1.6 习题 第2章 数学基础 2.1 概率论基础 2.2 信息论基础 2.3 深入阅读 2.4 习题 第3章 语言学基础 3.1 词性和词法 3.2 信息论基础 3.3 语义和语用 3.4 基础研究领域 3.5 深入阅读 3.6 习题 第4章 基于语料库的工作 4.1 基础知识 4.2 文本 4.3 数据标注 4.4 深入阅读 4.5 习题 第二部分 词法 第5章 搭配 5.1 频率 5.2 均值和方差 5.3 假设检验 5.4 互信息 5.5 搭配的概念 5.6 深入阅读 5.7 习题 第6章 统计推理:稀疏数据集上的n元语法模型 6.1 Bins:构造等价类 6.2 统计估计 6.3 组合估计法 6.4 结论 6.5 深入阅读 6.6 习题 第7章 语义消歧 7.1 预备知识 7.2 有监督消歧 7.3 基于词典的消歧 7.4 无监督消歧 7.5 什么是语义 7.6 深入阅读 7.7 习题 第8章 词汇获取 8.1 评价方法 8.2 动词子范畴 8.3 附着歧义 8.4 选择倾向 8.5 语义相似性 8.6 统计自然语言处理中词汇获取的作用 8.7 深入阅读 8.8 习题 第三部分 语法 …… 第四部分 应用与技术 附录A 统计表 参考文献 符号表 |
商品评论(0条)