
| 本书既全面阐述了中文语言处理技术的特殊规律,又借鉴了国内外学者在计算语言学领域里的最新成就,还包括了作者的实践经验和体会。 |
| 第1章 引言1 第2章 数学基础7 2.1初等概率理论7 2.1.1基本概念7 2.1.2条件概率与独立9 2.1.3全概率公式与贝叶斯公式10 2.1.4随机变量12 2.1.5多维随机变量13 2.1.6数学期望与方差15 2.1.7常用分布16 2.2信息论基础18 2.2.1信息熵18 2.2.2联合熵和条件熵20 2.2.3互信息20 2.2.4相关熵21 2.2.5语言与熵22 2.2.6噪声信道模型23 2.3粗糙集25 2.3.1信息系统25 2.3.2不可分辨关系25 .2.3.3集合近似26 2.3.4约简27 2.3.5属性依从28 2.3.6决策规则合成29 2.4小结29 第3章 汉语自动分词技术31 3.1引言31 3.2分词规范33 3.3常用的分词方法35 3.3.1正向最大匹配分词35 3.3.2反向最大匹配分词35 3.3.3基于统计的词网格分词36 3.4歧义的分类和识别36 3.4.1歧义的分类36 3.4.2歧义的抽取和消歧37 3.5新词的识别39 3.5.1统计构词能力40 3.5.2汉字构词模式40 3.5.3未登录词识别算法41 3.6关于分词的若干统计结果41 3.7语言单位的统计分布规律(zipf定律)42 3.8小结44 第4章 基于数学统计的语言模型47 4.1统计语言模型概述47 4.2现有的主要统计语言模型48 4.2.1上下文无关模型48 4.2.2n元文法模型49 4.2.3n\ |
商品评论(0条)