
| 大量文档集内容的预处理包括特征抽取、文本分类、文本聚类等。文本分类和文本聚类研究的成果比较多,本书只作简单介绍;而对特征生成、特征选择和特征抽取,本书进行深入地讨论。 信息抽取是文本挖掘的核心操作,目前的主要研究方向是命名实体识别、实体关系抽取和事件抽取。实体关系抽取是文本挖掘的关键任务,所以本书用大量篇幅讨论了实体关系发现技术。 由于文本挖掘强调用户交互到知识发现过程的集成性,因此,本书最后讨论了文本挖掘结果可视化方法,并介绍了一种文本挖掘语言——dial。 |
| 前言 第1章 文本挖掘概述 1.1 文本挖掘的产生背景 1.2 文本 1.2.1 文本格式 1.2.2 动态文本集 1.3 文本挖掘的概念 1.4 文本挖掘的任务 1.4.1 文本挖掘预处理 1.4.2 文本模式挖掘 1.4.3 挖掘结果可视化 1.5 文本挖掘系统的通用体系结构 第2章 文本表示 第3章 文本挖掘预处理——文本分类 第4章 文本挖掘预处理——文本聚类 |
商品评论(0条)