
| 本书特色: 国内垂直搜引擎的扛鼎之作; 集开源搜索引擎之大成,融会贯通,自成一体; 无线搜索引擎核心技术零距离接触; Web信息挖掘专用程序设计语言,语法标准首次发布; 垂直爬虫专业并行虚拟机核心技术展示; 多年商业搜索引擎开发运营经验之提炼总结; 真实的中型分布式搜索引擎开发案例全景展现; 最新Java前沿技术在经典计算机理论上的优秀应用; 专业信息检索理论与商业搜索需求的完美结合; Java软件工程设计模式最佳实践。 |
| 王亮,主持或参与过多个大中型索引擎开发与运营,具有丰富的搜索引擎算法理论知识与实际开发运营经验。曾任职于爱立信、Smarter.com、上海网村、上海迈众,2009年创立上海睿驿信息技术有限公司并任CEO,致力于提供搜索引擎相关的产品和服务。 |
| 第1章 网页数据挖掘 1.1 网页数据挖掘定义 1.2 Web数据挖掘面临的问题 1.3 Web数据挖掘的分类 1.4 网页数据的结构与特点 1.4.1 HTML超文本标记语言 1.4.2 WML无线标记语言 1.5 网页数据挖掘的基本方法 1.5.1 预备知识 1.5.2 变量模板匹配方法 1.5.3 树节点直接标识方法 1.5.4 语义规则识别方法 第2章 智能网络爬虫 2.1 智能网络爬虫的定义与特点 2.2 抓取入口定义 2.3 次级页面自动发现 2.4 次级页面地址拼接 2.5 已爬地址处理 2.6 信息采集强度控制 2.7 模拟用户登录 2.8 验证码识别 2.9 代理服务器设置 2.10 JavaScript解析控制 第3章 网页信息挖掘专用程序设计语言IRS 3.1 IRS语言的简介与设计原则 3.2 IRS脚本语法结构 3.2.1 页面配置块 3.2.2 页面名语句 3.2.3 爬虫配置声明语句 3.2.4 入口声明语句 3.2.5 编码配置 3.2.6 步长配置 3.2.7 重试次数配置 3.2.8 正则模式匹配语句 3.2.9 匹配名声明 3.2.10 IEE表达式 3.2.11 模式匹配修饰符 3.2.12 节点模式匹配语句 3.2.13 次级页面入口语句 3.2.14 保存语句 3.2.15 Ruby控制语句 3.2.16 爬虫配置语句 3.2.17 系统配置语句 3.2.18 外部配置文件 3.2.19 执行语句块 3.2.20 IRQL存储语句 3.2.21 IRQL语言中的数据表 3.2.22 IRQL内部函数 3.2.23 实例解析 第4章 IRS虚拟机及编译器实现原理 4.1 Ruby基本语法 4.1.1 字句构造和表达式 …… 第5章 搜索引擎设计原理 第6章 搜索引擎的商业化实现 第7章 Hivemind 后记与感谢 |
商品评论(0条)