
| Dorian Pyle具有超过25年的从事数据挖掘工作的经验,担任过若干个数据挖掘工具公司、信用卡业务公司、制造业公司的顾问,他目前是Data Miners Inc.的顾问。他研发过若干个具有专利权的建模和数据挖掘技术,包括数据准备和数据概括工具,以及一个可以直接应用的自适应的建模技术。他还是业界会议上一位受欢迎的演说家,另外著有《Data Preparation for Data Mining》。 杨冬青 北京大学信息科学技术学院教授,博士生导师,网络与信息系统研究所副所长,数据库与信息系统研究室主任,中国.. << 查看详细 |
| 译者序 前言 译者简介 第一部分 本领域的概要 第1章 世界、知识与模型 2 1.1 世界的本质 2 1.1.1 事件 3 1.1.2 对象 4 1.1.3 感知 5 1.1.4 数据 6 1.1.5 结构 6 1.2 系统 7 1.3 知识结构 8 1.3.1 认知问题 9 1.3.2 范型、原型、模式与认知 10 1.3.3 表示知识的框架 12 1.3.4 个人知识 13 1.3.5 社会知识 13 1.3.6 其他类型的知识 13 1.4 改变知识结构 14 .1.4.1 符号和符号化知识 15 1.4.2 作为一个网络的知识 16 1.4.3 变化着的迹象,变化着的结论 17 1.4.4 知识结构中的聚集和突变 17 1.5 小结 18 补充材料 19 第2章 转变经验 20 2.1 挖掘和思想 20 2.1.1 剖析数据 21 2.1.2 数据和抽象 22 2.1.3 识别模式 23 2.1.4 静态模式 24 2.1.5 动态模式 26 2.1.6 新颖、实用、洞察和兴趣 27 2.1.7 挖掘与模式搜寻 28 2.2 世界的系统 28 2.2.1 开放形式和封闭形式的系统和解决方案 29 2.2.2 系统本质 30 2.2.3 耦合与反馈 30 2.2.4 系统思考 31 2.3 战略和战术 33 2.3.1 战略对战术的决策和行动 33 2.3.2 解决问题 34 2.3.3 不确定性的种类 34 2.3.4 降低不确定性的代价 35 2.3.5 用受约束选项来决策 35 2.4 小结 35 第3章 建模与挖掘的结合 37 3.1 问题 37 3.1.1 识别问题 38 3.1.2 描述问题 39 3.1.3 构造问题 39 3.1.4 隐藏的假设 40 3.2 现实世界的数据 40 3.2.1 数据的特性 40 3.2.2 计量和描述 41 3.2.3 错误和信心 42 3.3 假说:解释数据 42 3.3.1 数据结构 43 3.3.2 交互和关系 43 3.3.3 假说和解释 44 3.4 做出决策 45 3.4.1 决策的框架:表示选择 45 3.4.2 博弈论 46 3.4.3 线性规划 47 3.5 决策 47 3.5.1 规范化的决策:我们该做什么 48 3.5.2 发现可能性:我们能做什么 50 3.5.3 持久性和变化的理论概要 51 3.6 小结 54 第二部分 业务建模 第4章 什么是模型 56 4.1 数据、信息和知识简介 56 4.1.1 数据 56 4.1.2 信息 57 4.1.3 知识 59 4.2 观察者的模型指南 60 4.2.1 推理模型 60 4.2.2 预测模型 61 4.2.3 关联模型 62 4.2.4 系统模型 63 4.2.5 静态模型 64 4.2.6 动态模型 65 4.2.7 定性模型 66 4.2.8 定量模型 67 4.2.9 比较模型 67 4.2.10 交互模型 68 4.2.11 模型类型总结 69 4.3 作为一种行为的建模 70 4.3.1 目标 70 4.3.2 经验建模 71 4.3.3 解释数据 72 4.3.4 建模假设 73 4.4 小结 73 第5章 构建业务模型 74 5.1 建立框架 75 5.2 确定目标 77 5.3 问题和决策 78 5.3.1 决策符号 79 5.3.2 决策图 81 5.3.3 建立决策框架 83 5.4 为情形建模:将决策与世界观连接起来 83 5.5 选项:评估可能性 84 5.5.1 战略 84 5.5.2 战术 85 5.5.3 连接战略回报 86 5.5.4 将战略链接到一起 87 5.5.5 将选项映射到战略 88 5.6 期望:评估未来 89 5.6.1 或许是一个有风险的业务 89 5.6.2 风险选择 91 5.6.3 令人满意的收获,令人遗憾的损失 91 5.6.4 基准 92 5.6.5 战略风险 93 5.7 最后的调整 94 5.8 为问题框架构图 94 5.8.1 沃波利装饰品 95 5.8.2 作图、建模和挖掘 97 5.9 小结 98 5.10 对决策图的解释 98 5.11 风险计算 99 5.11.1 原始风险 100 5.11.2 偏置期望:brave 100 第6章 获得正确的模型 101 6.1 交互地探索相关领域 102 6.1.1 利益相关群体 102 6.1.2 说与听 104 6.2 利用比喻为业务情形建模 108 6.2.1 系统比喻 109 6.2.2 物理系统比喻 115 6.3 探索工具 120 6.3.1 思维示意图 120 6.3.2 认知示意图 123 6.3.3 认知模型 124 6.4 业务案例 126 6.4.1 什么是业务案例 127 6.4.2 使业务案例与企业需求一致 128 6.4.3 准备业务案例 130 6.4.4 投资回报率 131 6.4.5 业务案例的汇编和呈递 132 6.5 现实:用我的数据可以做什么 133 6.5.1 寻找问题 134 6.5.2 问题机会:企业价值链 134 6.5.3 初始项目规模 136 6.6 小结 136 第7章 确保模型正确 137 7.1 发现用以挖掘的数据 137 7.1.1 外部数据 137 7.1.2 现有数据 138 7.1.3 专门产生的数据 139 7.2 使用数据 156 7.2.1 变量类型 157 7.2.2 融合数据集 158 7.3 小结 161 第8章 模型的部署 162 8.1 修改业务过程 162 8.2 成功的动机 164 8.3 模型类别的影响 165 8.3.1 推理的模型:提供解释 165 8.3.2 预测模型 168 8.4 小结 170 第三部分 数据挖掘 第9章 数据挖掘模型入门 172 9.1 查看数据 172 9.2 预处理第一步:检验 174 9.2.1 “打量”变量 174 9.2.2 修复变量的基本问题 178 9.2.3 对数据集的基本检查 180 9.3 基本特征提取 189 9.3.1 表示时间、距离和差异关系 189 9.3.2 重编码 191 9.3.3 表示对象 192 9.4 调查数据 194 9.5 小结 195 第10章 挖掘工具做什么 196 10.1 数据挖掘算法 196 10.1.1 变量类型及其对算法的影响 197 10.1.2 刻画邻域特点:最近邻居 198 10.1.3 平滑表示 207 10.1.4 不连续的和非函数的表示 214 10.1.5 算法总结 217 10.2 工具和工具集 218 10.2.1 megaputer intelligence 218 10.2.2 angoss knowledge studio 220 10.2.3 wizwhy 221 10.2.4 bayesware discoverer 222 10.2.5 e 223 10.2.6 microsoft sql server2000 224 10.3 小结 226 第11章 获得初始模型 227 11.1 准备保持诚实 227 11.2 强调数据 229 11.2.1 输入和输出数据集配置 230 11.2.2 缺失值检查模型 235 11.2.3 实用的诚实:使用训练和测试数据集 238 11.3 为理解建模 241 11.3.1 使用判定树建立用于理解的模型 241 11.3.2 使用自组织映射为理解建模 243 11.3.3 使用线性回归为理解建模 247 11.3.4 理解数据集小结 250 11.4 为分类建模 250 11.4.1 平衡数据集 251 11.4.2 建立一个二叉的分类模型 252 11.4.3 分类错误 253 11.4.4 根据分值分类 255 11.4.5 建立连续的分类模型 255 11.4.6 建立多元分类模型 258 11.4.7 分类模型小结 263 11.5 为预测建模 263 11.5.1 为预测收集数据 265 11.5.2 因果关系 267 11.5.3 为预测建模小结 269 11.6 小结 269 补充材料 269 第12章 改进已挖掘的模型 271 12.1 从误差中学习 272 12.1.1 观察误差 272 12.1.2 预测误差 274 12.1.3 连续分类器余量 276 12.1.4 连续分类器余量—实际值坐标图 278 12.1.5 连续分类器实际值—预测值坐标图 279 12.1.6 连续分类器方差图 281 12.1.7 完美模型 283 12.1.8 分类模型余量检查小结 283 12.1.9 改进解释模型 284 12.2 提高模型质量,解决问题 285 12.2.1 问题:数据不支持模型 286 12.2.2 问题:数据不完全支持模型 287 12.2.3 问题:给数据重新定义格式 289 12.2.4 问题:算法重新特化 297 12.2.5 问题:数据不充分 306 12.2.6 问题:数据不均匀 307 12.2.7 问题:挖掘模型中的估计偏斜 308 12.2.8 问题:减少噪声 309 12.2.9 问题:类别关联 311 12.2.10 问题:局部共线性 311 12.2.11 问题:数据不代表业务问题 312 12.2.12 问题:输出值限制 313 12.2.13 问题:方差偏斜 313 12.2.14 问题:建模工具故障 313 12.2.15 问题:时代错误的变量 314 12.2.16 问题:噪声或无关变量 314 12.2.17 问题:交互作用 316 12.2.18 问题:数据不充足 321 12.3 小结 322 第13章 部署挖掘出的模型 323 13.1 部署解释性模型 323 13.2 新奇性及保持模型有效 323 13.2.1 向均值回归 324 13.2.2 分布 328 13.2.3 无分布 329 13.2.4 探测新奇性 330 13.2.5 使用新奇性探测器 333 13.3 所部署模型的形式 334 13.4 小结 335 第四部分 方法论 第14章 方法论概述 338 14.1 方法论的结构 339 14.1.1 行动框 340 14.1.2 发现框 341 14.1.3 技术框 342 14.1.4 例子框 342 14.1.5 印刷版本和可下载版本的差别 342 14.2 使用方法论 343 14.2.1 使用mii:业务建模方法论 344 14.2.2 使用miii:数据挖掘方法论 344 14.3 警告 344 第15章 mii—业务建模方法论 346 第16章 miii—数据挖掘方法论 362 参考资源 425 |
商品评论(0条)