数据科学家 = 统计学家 + 程序员 + 讲故事的人 + 艺术家
大数据方面的书籍可谓琳琅满目,有的讲解理论,有的介绍方法,有的传播理念。但是,大数据从业人员(如数据工程师、数据分析师、业务分析师、算法设计师等)应该掌握哪些知识与技能,如何应用数据解决现实的业务问题呢?恐怕最能给出答案的还是实际的数据从业者。为此,三位作者基于近10年的数据分析与应用经验,融合各自在商业银行、互联网金融和电商领域的切身体验,寓理论于实战,选取多个详实的案例,站在企业实际应用的角度介绍数据分析应用过程并公布源代码,并最终形成本书。本书对于读者开展数据分析工作能够提供直接帮助,为有志于在大数据领域发展的读者启航。
本书有三大特点。其一,内容全面,覆盖大数据生态中的数据、基础平台、分析方法和应用四个领域,对数据应用从业务需求、数据准备、数据分析、挖掘建模、演示报告、成果应用等全流程进行了详细阐述;其二,以业务场景为主线,精选银行和互联网方面最具代表性的案例,站在数据消费者和分析师的角度,身临其境地介绍了数据如何产生价值,寓理论于实战,让读者能知其所以然;其三,写作手法上遵循大道至简原则,用浅显的语言介绍复杂的数据分析应用过程,归纳数据分析师乃至数据科学家应该修炼的要点,既关注技术细节,又不拖泥带水,能为读者提供直接帮助。
本书既可作为数据分析与商业分析人员的入门指引和案头工具,亦可为统计学、计算机科学、市场营销等专业研究生拓宽视野。
对书中源代码感兴趣的读者,可与作者联系(邮箱:64346837@qq.com)。
5.1.3 聚类分析,无监督的客户细分方法
107
6.1.2 案例:富国银行的“商店”经营模式
124
9.3 案例:信用卡消费信贷产品的精准营销
176
11.2.1 案例背景:存款增长率指标展示
215
13.2.2 数据自助营销平台的基础:标签系统
251
第14章 基于Mahout的个性化推荐系统
261
14.2.1 Mahout推荐算法的适用范围
268
14.2.2 通过分布式解决规模和效率的问题
270
15.2 Spark GraphX与Neo4j
283
15.3 使用Spark GraphX和Neo4j处理社会网络
286
15.3.3 Spark GraphX处理原始网络
287