| 第1章 绪论1.1 引言1.2 信息检索的起源和发展1.2.1 手工检索1.2.2 脱机批处理检索1.2.3 联机检索1.2.4 光盘检索1.2.5 网络信息检索1.3 信息检索模型及方法1.3.1 传统布尔检索与扩展布尔检索模型1.3.2 向量空间模型1.3.3 概率检索模型1.3.4 模糊检索模型1.3.5 逻辑检索模型1.3.6 概念检索1.3.7 案例检索1.4 网络信息检索的过程1.4.1 网络信息获取1.4.2 信息加工1.4.3 信息检索与结果提供1.5 网络信息检索的性能评价1.6 网络信息智能化处理1.7 网络信息检索技术的未来1.7.1 以智能化技术为核心的智能检索1.7.2 多媒体信息检索1.7.3 跨语言检索1.7.4 个性化检索本章小结参考文献第2章 网络信息处理2.1 网络信息采集2.2 网络信息抽取2.3 网络信息的标引与索引2.3.1 标引2.3.2 索引2.4 基于链接分析的网页相关性算法及检索结果排序2.4.1 链接分析2.4.2 HITS算法2.4.3 PaSeRank算法及网页相关性评价2.4.4 HITS算法和PageRank算法的比较2.5 基于自然语言处理的检索2.5.1 自然语言理解的发展2.5.2 基于规则分析的方法2.5.3 基于统计分析的方法2.5.4 自然语言检索本章小结参考文献第3章 搜索引擎3.1 搜索引擎概述3.2 搜索引擎的发展历程3.3 搜索引擎的分类3.3.1 目录索引式搜索引擎3.3.2 自动式搜索引擎3.3.3 元搜索引擎3.3.4 分布式搜索引擎3.4 搜索引擎开发平台简介3.4.1 Lucene3.4.2 Lemur3.4.3 LIUS3.4.4 Egothor3.4.5 Xapian3.5 开源的Web搜索引擎系统简介3.5.1 Nutch3.5.2 YaCy3.5.3 COmpass3.6 相关资源3.6.1 权威教材3.6.2 国际著名研究机构3.6.3 著名国际会议本章小结参考文献第4章 Lucene的索引与检索机制及其应用4.1 Lucene简介4.2 Lucene的下载、安装与部署4.2.1 下载Lucene4.2.2 配置环境变量4.2.3 对Lucene Demo的测试4.3 Lucene的索引与检索机制概述4.3.1 文本分析4.3.2 Lucene的索引方式4.3.3 Lucene索引文件的构成4.3.4 Lucene的检索4.3.5 Lucene的索引和检索主要流程4.4 管理和操作索引4.4.1 设定增量索引4.4.2 更新索引4.4.3 优化索引4.4.4 管理索引4.5 Lucene的检索4.5.1 构建检索4.5.2 完成检索的主要步骤4.6 根据用户提交的检索词构造查询4.6.1 对单——域字段检索4.6.2 对逻辑关系检索4.6.3 对范围的检索4.6.4 对前缀通配的检索4.6.5 对Query的前缀和后缀通配的检索4.6.6 模糊检索的实现4.6.7 对多关键词的检索4.6.8 通过Query的SpanNearQuery方式完成近似检索4.7 基于Lucene应用程序:开源搜索引擎系统Nutch4.7.1 Nutch简介4.7.2 在Eclipse中加载Nutch本章小结参考文献第5章 分词处理5.1 概述5.1.1 基于词典匹配的中文分词5.1.2 基于词频统计的无词典中文分词5.1.3 Lucene的分析器5.2 常用的中英文分词器及分词效果5.2.1 停用词分析器5.2.2 标准分析器5.2.3 简单分析器5.2.4 空格分析器5.2.5 关键词分析器5.2.6 ChineseAnalyzer5.2.7 CJKAnalyzer5.2.8 第三方分词工具ICTCLAS5.2.9 第三方分析软件JE5.2.10 第三方分析软件IK_CAnalyzer5.2.11 第三方分析软件MIK_Canalyzer本章小结参考文献第6章 检索结果排序及处理6.1 检索结果集Hits6.2 检索结果的排序及控制6.2.1 Lucene的排序机制6.2 通过改变文档的Boost因子来改变排序结果6.2.3 使用Lucene的Sort类定制排序结果6.2.4 对多个指定Field进行综合排序6.3 检索结果的分页6.4 检索结果的高亮显示6.5 检索日志处理6.5.1 下载及配置Log4J6.5.2 配置信息 |
商品评论(0条)