前 言
為什么會寫這本書
市面上大部分數(shù)據(jù)分析相關(guān)的書籍都是從工具的介紹開始的,但很多時候數(shù)據(jù)分析主要依靠數(shù)據(jù)思維。特別是面對復(fù)雜業(yè)務(wù)場景時,對于業(yè)務(wù)的熟悉程度及數(shù)據(jù)思維顯得尤為重要。因為數(shù)據(jù)思維決定了分析問題的角度及合理性,只要數(shù)據(jù)分析師能夠針對特定問題提出分析方案,無論用什么工具都可以得到結(jié)果,因此數(shù)據(jù)思維是數(shù)據(jù)分析師成長進階路上的必修課。
而市面上關(guān)于數(shù)據(jù)思維的書籍較少且部分書籍講授的知識點較淺,能夠?qū)?shù)據(jù)思維、編程語言、統(tǒng)計學(xué)思想及案例分析等融為一體的書籍少之又少,于是我萌生了寫一本以數(shù)據(jù)分析全流程為主線的數(shù)據(jù)思維相關(guān)書籍的想法。由于我長期堅持在自媒體上分享數(shù)據(jù)分析相關(guān)的轉(zhuǎn)行經(jīng)驗、數(shù)據(jù)思維相關(guān)的思考,幾年下來積淀了不少受大家歡迎的文章,為書籍的創(chuàng)作奠定了一定基礎(chǔ),因此有編輯陸續(xù)邀請我寫書。終,選擇和電子工業(yè)出版社張慧敏老師合作,也開始了我的寫書歷程。
本書特色
本書以數(shù)據(jù)思維為主題,以數(shù)據(jù)分析全流程為主線,融合了編程語言、統(tǒng)計學(xué)基礎(chǔ)及
案例分析等內(nèi)容,全書分為4 篇,囊括了數(shù)據(jù)思維的概念和培養(yǎng)方法、數(shù)據(jù)來源及體系
建設(shè)、數(shù)據(jù)分析三大思維方式及用戶流失、用戶轉(zhuǎn)化實戰(zhàn)等共11 章的內(nèi)容。本書囊括了
數(shù)據(jù)分析中常用的分析方法,包括經(jīng)典的海盜(AARRR)模型、麥肯錫的MECE 模型、
邏輯樹、漏斗分析、路徑分析、對比分析、A/B 試驗、RFM 模型、K-Means 算法、5W2H
等分析方法,還包括各類方法的實踐案例及Python 實操項目?梢哉f本書是數(shù)據(jù)分析方
法論與統(tǒng)計學(xué)知識、編程語言及應(yīng)用案例的完美結(jié)合。
第1 篇是入門篇,主要通過具體示例介紹數(shù)據(jù)思維是什么、數(shù)據(jù)思維在數(shù)據(jù)分析師
成長過程中的重要性及數(shù)據(jù)思維養(yǎng)成的三種方法。
第2 篇是預(yù)備篇,想要做數(shù)據(jù)分析,就得有數(shù)據(jù),因此本篇首先介紹了互聯(lián)網(wǎng)企業(yè)
的數(shù)據(jù)來源,即通過數(shù)據(jù)埋點獲得用戶數(shù)據(jù)。在此過程中,數(shù)據(jù)分析師主要基于業(yè)務(wù)需
求設(shè)計埋點方案,所以這也是本篇的重點內(nèi)容之一。有了數(shù)據(jù)之后,對數(shù)據(jù)進行一定處
理和加工是十分必要的。數(shù)據(jù)標簽體系是數(shù)據(jù)加工處理的重要一環(huán),數(shù)據(jù)分析師在其中
承擔了一部分數(shù)據(jù)標簽開發(fā)工作,這部分會用一章的篇幅進行闡述。除此之外,想要通
過數(shù)據(jù)監(jiān)控業(yè)務(wù),就需要建立數(shù)據(jù)指標體系。至于什么樣的數(shù)據(jù)指標體系才是好的指標
體系,如何才能搭建一套能夠反映業(yè)務(wù)的指標體系,如何通過指標體系排查數(shù)據(jù)異動,
就是第6 章的內(nèi)容了。
第三篇是方法論篇,在完成數(shù)據(jù)埋點及數(shù)據(jù)體系化之后,便可進入分析環(huán)節(jié)。這一篇
主要介紹了數(shù)據(jù)分析過程中常用的三種思維方式:對比思維、分群思維及相關(guān)思維。對
比思維是第7 章的內(nèi)容,這一章主要介紹數(shù)據(jù)分析中各種比較的方法,包括同比、環(huán)比、
定比等。但在對比分析中較為重要的是線上試驗A/B 試驗,因此本章大部分篇幅會
介紹A/B 試驗流程、統(tǒng)計學(xué)原理以及利用Python 完成案例實操。分群思維是第8 章的內(nèi)
容,這一章主要從結(jié)構(gòu)化分析、同期群分析等分析方法出發(fā)介紹其在用戶分群中的應(yīng)用,
同時會通過開源數(shù)據(jù)集利用RFM 模型及K-Means 算法實現(xiàn)用戶分群。相關(guān)思維是第9
章的內(nèi)容,分析兩個或多個變量之間的相關(guān)性是數(shù)據(jù)分析師的日常工作之一,但變量間
具有相關(guān)性并不代表具有因果性,因此這一章會從相關(guān)性出發(fā)討論相關(guān)與因果之間的
關(guān)系。
第四篇是實戰(zhàn)篇,這一篇立足于用戶生命周期中流失與轉(zhuǎn)化兩大重要階段,總結(jié)用
戶流失的分析方法論及用戶轉(zhuǎn)化相關(guān)的分析方法。用戶流失分析是本書第10 章的內(nèi)容,
這一章會從流失用戶的定義出發(fā),介紹用戶流失的內(nèi)因分析、外因分析方法論;同時介
紹如何設(shè)計問卷驗證從數(shù)據(jù)層面分析出的內(nèi)因和外因是否正確;后,通過生存分析預(yù)
測用戶流失周期以輔助運營人員進行用戶干預(yù),以減少用戶流失。用戶轉(zhuǎn)化與付費分析
是本書第11 章的內(nèi)容,這一章會介紹活動轉(zhuǎn)化率的預(yù)估方法、漏斗分析在用戶轉(zhuǎn)化中的
應(yīng)用,以及營銷增益模型在用戶付費及轉(zhuǎn)化中的應(yīng)用。
讀者定位
本書適合以下幾類人群:
l 工作了1~3 年的初級數(shù)據(jù)分析師。
l 已經(jīng)掌握了數(shù)據(jù)分析工具,需要培養(yǎng)數(shù)據(jù)思維的轉(zhuǎn)行人員。
l 數(shù)據(jù)科學(xué)行業(yè)的人力專家和獵頭,用于標定候選人的數(shù)據(jù)分析能力。
本書以數(shù)據(jù)思維為主題,其中的實踐案例涉及Python 及SQL 語言,但本書不會講解
Python、SQL 的基礎(chǔ)編程知識,所以本書面向已經(jīng)掌握了Python 及SQL 等數(shù)據(jù)分析語言
的數(shù)據(jù)分析師和相關(guān)轉(zhuǎn)行人員。
學(xué)習建議
數(shù)據(jù)思維并不是一蹴而就的,也不是學(xué)完本書就會立刻擁有的。本書不具備賦予讀
者數(shù)據(jù)思維的超能力。數(shù)據(jù)思維不同于數(shù)據(jù)分析工具,數(shù)據(jù)思維較為抽象,需要在業(yè)
務(wù)實戰(zhàn)中積累經(jīng)驗。但是本書會總結(jié)分析方法論、分享實踐案例,引導(dǎo)讀者樹立數(shù)據(jù)思維。
當然這是遠遠不夠的,培養(yǎng)數(shù)據(jù)思維好的方式還是在實戰(zhàn)中積累和總結(jié)。本書只是拋磚
引玉地為讀者建立一個系統(tǒng)框架,終還需要讀者在自己的行業(yè)中不斷實踐和積累。
本書并不是空洞而抽象地講數(shù)據(jù)思維,而是基于完整的數(shù)據(jù)分析流程闡述數(shù)據(jù)思維
在整個流程中的應(yīng)用,涉及數(shù)據(jù)分析的每一階段。從通過數(shù)據(jù)埋點獲取用戶數(shù)據(jù)到數(shù)據(jù)
標簽化處理,再到指標體系監(jiān)控業(yè)務(wù)變化,是數(shù)據(jù)分析的準備工作;對比思維、分群思維
及相關(guān)思維是數(shù)據(jù)分析各個階段都會用到的思維方式;將各類分析方法及分析思維恰到
好處地運用到業(yè)務(wù)場景中,以揭示業(yè)務(wù)問題才是數(shù)據(jù)分析真正要解決的問題。
本書從數(shù)據(jù)埋點到各類分析方法的應(yīng)用,為讀者搭建了一套系統(tǒng)的分析框架,讀者
需要在掌握Python、SQL、Excel 等數(shù)據(jù)分析工具的前提下進行實踐。Python 實操部分屬
于進階內(nèi)容,這部分工作在大公司中多由算法工程師承擔,數(shù)據(jù)分析師可以將其作為拓
展和提升內(nèi)容進行了解。
勘誤與支持
由于作者水平有限,書中難免出現(xiàn)一些疏漏,懇請讀者批評、指教。讀者可以將文中
發(fā)現(xiàn)的錯誤、不準確的描述、代碼問題、文字問題及有疑惑的地方反饋到郵箱
574233829@qq.com 或者反饋到公眾號數(shù)據(jù)萬花筒后臺,我們會對相關(guān)內(nèi)容進行修訂。
全書的代碼除了通過掃描封底小助手二維碼領(lǐng)取,還可以從公眾號數(shù)據(jù)萬花筒后臺
獲取,期待得到你們真摯的反饋!
致謝
本書是在長期的工作中總結(jié)出來的經(jīng)驗和方法,首先,要感謝從實習到正式工作這
幾年中陪我一路走來的同事們及前同事們,沒有你們的指導(dǎo),就沒有我的成長!
特別感謝黃毅斐、楊昊明兩位領(lǐng)導(dǎo)對本書的指導(dǎo),感謝周晟、李姣陽、賈彥龍為本書
寫推薦語,同時感謝孫志杰、王倩倩、曾思皓、蔡俊君、李海釗、黎芮琦等對本書進行校
正,并提出修改意見。
其次,感謝父母,是你們給了我生命,給了我受教育的機會,在困難和挫折面前鼓勵
我、幫助我,才有了今天的我!
當然,也要感謝公眾號的讀者,是你們的支持使我有了持續(xù)更新技術(shù)文章的動力,也
才有了這本書!同時要感謝在做公眾號時遇到的各位優(yōu)秀的同仁。
更要感謝電子工業(yè)出版社的張慧敏老師,從選題到立項,再到一遍一遍地修改書稿,
她提出了很多有建設(shè)性的意見和建議。
目 錄
第1 篇 數(shù)據(jù)思維
第1 章 數(shù)據(jù)思維是什么 1
1.1 從數(shù)據(jù)治理流程淺談數(shù)據(jù)思維 1
1.1.1 什么是數(shù)據(jù)治理 2
1.1.2 數(shù)據(jù)治理流程介紹 2
1.1.3 從數(shù)據(jù)治理流程談數(shù)據(jù)部門崗位職責 . 3
1.1.4 數(shù)據(jù)分析師在數(shù)據(jù)治理流程中所需要的數(shù)據(jù)思維 . 4
1.2 數(shù)據(jù)思維到底是什么 5
1.2.1 應(yīng)用數(shù)據(jù)思維的工作 5
1.2.2 數(shù)據(jù)思維是可以培養(yǎng)的 .. 6
1.3 數(shù)據(jù)思維直觀的解釋 6
1.3.1 構(gòu)建有效的監(jiān)控體系和客觀的評價標準 . 7
1.3.2 用合理的分析方法探究原因以及評價效果 . 7
1.3.3 綜合運用統(tǒng)計學(xué)知識對活動效果進行預(yù)估 . 8
第2 章 為什么數(shù)據(jù)思維如此重要 . 9
2.1 數(shù)據(jù)思維是數(shù)據(jù)分析師的技能 9
2.1.1 數(shù)據(jù)分析師的硬技能 9
2.1.2 數(shù)據(jù)分析師的軟技能 10
2.1.3 為什么軟技能比硬技能重要 10
2.2 數(shù)據(jù)思維是數(shù)據(jù)分析師成長晉升的技能 11
2.3 數(shù)據(jù)思維能幫助數(shù)據(jù)分析師建立影響力 11
第3 章 數(shù)據(jù)思維如何培養(yǎng) 14
3.1 熟悉常用的數(shù)據(jù)分析方法 14
3.1.1 三大分析思維 14
3.1.2 不同生命周期的分析方法 15
3.2 樹立目標意識,尋找潛在分析點 16
3.2.1 為什么需要樹立目標意識 17
3.2.2 通過多問為什么,樹立目標意識 . 18
3.3 不預(yù)設(shè)立場,通過客觀的標準代替主觀的判斷 19
3.3.1 不預(yù)設(shè)立場才能做到客觀 19
3.3.2 預(yù)設(shè)立場與假設(shè)檢驗的區(qū)別 20
3.4 基于數(shù)據(jù)分析結(jié)果為業(yè)務(wù)方提出切實可行的解決方案 21
3.4.1 數(shù)據(jù)分析師提出合理建議需要經(jīng)歷的三個階段 21
3.4.2 數(shù)據(jù)分析師需要避免的幾種提建議的方式 23
第2 篇 數(shù)據(jù)指標體系
第4 章 數(shù)據(jù)埋點 . 27
4.1 數(shù)據(jù)埋點簡介 27
4.1.1 從數(shù)據(jù)產(chǎn)生流程淺談數(shù)據(jù)埋點 28
4.1.2 為什么需要進行數(shù)據(jù)埋點 29
4.1.3 數(shù)據(jù)埋點能夠采集哪些用戶數(shù)據(jù) 29
4.1.4 數(shù)據(jù)埋點與隱私保護 30
4.2 數(shù)據(jù)埋點分類及主流的數(shù)據(jù)上報技術(shù) 30
4.2.1 數(shù)據(jù)埋點的分類及方式 30
4.2.2 主流的數(shù)據(jù)上報技術(shù) 31
4.3 數(shù)據(jù)埋點方案設(shè)計 32
4.3.1 數(shù)據(jù)埋點流程 33
4.3.2 通過六個步驟實現(xiàn)數(shù)據(jù)埋點設(shè)計 34
4.3.3 以電商成交為例實現(xiàn)數(shù)據(jù)埋點設(shè)計 35
第5 章 數(shù)據(jù)標簽體系 . 38
5.1 數(shù)據(jù)標簽體系與用戶畫像 38
5.1.1 什么是數(shù)據(jù)標簽體系 38
5.1.2 數(shù)據(jù)標簽體系的作用 39
5.1.3 數(shù)據(jù)標簽的分類 39
5.1.4 用戶數(shù)據(jù)標簽的層級分類 40
5.1.5 數(shù)據(jù)標簽體系與用戶畫像的關(guān)系 41
5.2 如何構(gòu)建數(shù)據(jù)標簽體系 42
5.2.1 數(shù)據(jù)標簽體系構(gòu)建的流程 42
5.2.2 數(shù)據(jù)分析師在標簽體系構(gòu)建過程中承擔的角色 43
5.2.3 以某App 付費用戶的數(shù)據(jù)標簽體系的構(gòu)建為例,淺析數(shù)據(jù)標簽體系構(gòu)
建過程 44
5.3 數(shù)據(jù)標簽體系的應(yīng)用場景 47
5.3.1 數(shù)據(jù)標簽體系輔助運營人員進行決策分析 . 48
5.3.2 數(shù)據(jù)標簽體系可提升數(shù)據(jù)分析師的分析效率 . 48
第6 章 數(shù)據(jù)指標體系 49
6.1 從中國人口數(shù)據(jù)初識指標體系構(gòu)建 49
6.1.1 什么是指標體系 49
6.1.2 為什么需要指標體系 50
6.1.3 指標體系的評價標準及注意事項. 53
6.2 用四個模型梳理數(shù)據(jù)指標體系構(gòu)建的方法論 53
6.2.1 構(gòu)建數(shù)據(jù)指標體系的方法 54
6.2.2 用三個步驟、四個模型梳理數(shù)據(jù)指標體系的方法 . 54
6.2.3 以GMV 為例搭建數(shù)據(jù)指標體系 . 57
6.3 如何搭建一套通用的指標體系并快速落地應(yīng)用 60
6.3.1 多部門配合搭建數(shù)據(jù)指標體系的流程 . 60
6.3.2 搭建通用的指標體系 61
6.4 定位異動因素 65
6.4.1 數(shù)據(jù)波動多少才能稱為數(shù)據(jù)異動. 65
6.4.2 數(shù)據(jù)波動分析的方法論 65
6.4.3 從數(shù)據(jù)埋點到指標體系再到指標異動的閉環(huán) . 70
第3 篇 數(shù)據(jù)分析方法論
第7 章 對比思維 . 71
7.1 利用對比分析得出結(jié)論 71
7.1.1 對比分析的作用 71
7.1.2 確定對比的對象 72
7.1.3 如何對比 72
7.1.4 對比分析的可比性原則 77
7.2 A/B 試驗設(shè)計及容易忽略的誤區(qū) . 78
7.2.1 什么是A/B 試驗 . 78
7.2.2 A/B 試驗?zāi)芙鉀Q什么問題 . 78
7.2.3 A/B 試驗的流程 . 79
7.2.4 A/B 試驗常見的誤區(qū) 82
7.3 A/B 試驗背后涉及的統(tǒng)計學(xué)原理 . 87
7.3.1 什么是抽樣 87
7.3.2 樣本為什么可以代表總體 88
7.3.3 通過假設(shè)檢驗判斷A、B 兩組樣本是否存在差異 . 90
7.3.4 如何通過樣本估計總體 91
7.3.5 如何確定足夠的樣本量,以達到所希望的邊際誤差 92
7.3.6 如何衡量試驗效果 94
7.3.7 多重比較中P 值修正的三方法 96
7.4 Python 實戰(zhàn):A/B 試驗在廣告方案選擇中的應(yīng)用 96
7.4.1 試驗背景 96
7.4.2 數(shù)據(jù)基本情況探索 97
7.4.3 A/B 試驗結(jié)果分析 98
第8 章 分群思維 . 102
8.1 從用戶生命周期淺談分群思維 102
8.1.1 什么是分群思維 102
8.1.2 為什么需要用戶分群 104
8.1.3 用戶分群方法論 106
8.2 用數(shù)據(jù)分箱進行結(jié)構(gòu)化分析 107
8.2.1 結(jié)構(gòu)化分析是什么 107
8.2.2 如何更加高效地做結(jié)構(gòu)化分析 109
8.3 同期群分析解讀用戶生命周期,剖析真實用戶行為和價值 110
8.3.1 同期群分析是什么 111
8.3.2 做同期群分析的意義 112
8.3.3 數(shù)據(jù)分析師如何快速地做同期群分析 113
8.4 Python 實戰(zhàn):基于RFM 模型及K-Means 算法實現(xiàn)用戶分群 . 115
8.4.1 RFM 模型與K-Means 算法介紹 116
8.4.2 RFM 模型實現(xiàn)用戶分群 . 118
8.4.3 K-Means 算法實現(xiàn)用戶分群 123
第9 章 相關(guān)與因果 . 133
9.1 相關(guān)性分析簡介 133
9.1.1 相關(guān)性分析與相關(guān)系數(shù) 133
9.1.2 常用的三種相關(guān)系數(shù) 134
9.1.3 相關(guān)系數(shù)實戰(zhàn) 136
9.2 因果推斷方法論 138
9.2.1 相關(guān)性不等于因果性的示例 139
9.2.2 從辛普森悖論談因果推斷 139
9.2.3 因果推斷的三個層級 141
9.2.4 因果推斷的方法 141
9.2.5 因果推斷常用的框架 144
9.3 Python 實戰(zhàn):利用DoWhy 框架實現(xiàn)因果推斷 . 144
9.3.1 DoWhy 因果推斷框架簡介 . 145
9.3.2 數(shù)據(jù)來源及預(yù)處理 145
9.3.3 數(shù)據(jù)相關(guān)性探索 148
9.3.4 因果推斷實現(xiàn) 149
第4 篇 數(shù)據(jù)分析案例實戰(zhàn)
第10 章 用戶流失分析 159
10.1 用戶流失分析方法論 159
10.1.1 用戶流失分析總體方法論 160
10.1.2 定義流失用戶的方法 161
10.1.3 分析用戶流失的原因 164
10.1.4 生成流失用戶標簽 164
10.1.5 預(yù)測潛在流失用戶 165
10.1.6 分層運營及用戶召回 165
10.2 案例分析:用5W2H 方法分析游戲用戶流失原因 165
10.2.1 情景介紹 165
10.2.2 5W2H 方法介紹 . 166
10.2.3 以游戲用戶流失為例,詳解5W2H 方法 167
10.3 用5 個理論模型構(gòu)建外部因素分析框架 170
10.3.1 通過SWOT 模型全面認識產(chǎn)品 . 171
10.3.2 PEST 模型分析外部宏觀環(huán)境的四個視角 171
10.3.3 用波特五力模型分析競品的五個維度 . 172
10.3.4 用4P 理論指導(dǎo)競品分析 173
10.3.5 用戶體驗五要素模型優(yōu)化產(chǎn)品功能,減少用戶流失 . 174
10.3.6 幾個模型之間的關(guān)聯(lián) 175
10.4 如何設(shè)計問卷驗證用戶流失的原因 176
10.4.1 問卷可以做什么 176
10.4.2 如何設(shè)計問卷 176
10.4.3 問卷的投放 180
10.4.4 數(shù)據(jù)分析及報告撰寫 181
10.4.5 通過問卷獲取信息可能存在的問題 181
10.5 Python 實戰(zhàn):通過生存分析預(yù)測用戶流失周期 182
10.5.1 生存分析 182
10.5.2 數(shù)據(jù)基本情況探索 184
10.5.3 探索變量之間的相關(guān)性 188
10.5.4 用KM 模型分析用戶留存率 189
10.5.5 Cox 風險比例模型 190
第11 章 用戶轉(zhuǎn)化與付費分析 197
11.1 用戶轉(zhuǎn)化與付費分析概述 197
11.1.1 從用戶轉(zhuǎn)化談數(shù)據(jù)分析師的職責 197
11.1.2 用戶轉(zhuǎn)化與付費常用的分析方法介紹 198
11.2 貝葉斯公式在用戶轉(zhuǎn)化中的應(yīng)用 198
11.2.1 貝葉斯公式簡介 199
11.2.2 用貝葉斯公式預(yù)估特定群體的轉(zhuǎn)化率 199
11.3 案例分析:用漏斗模型分析某電商平臺換貨業(yè)務(wù),提升用戶轉(zhuǎn)化率 201
11.3.1 什么是漏斗分析 201
11.3.2 漏斗分析的核心步驟 202
11.3.3 以某電商平臺逆向上門取件換貨業(yè)務(wù)為例,詳解漏斗分析法. 203
11.4 用營銷增益模型實現(xiàn)用戶分群,輔助運營人員識別營銷敏感人群 208
11.4.1 什么是營銷增益模型 208
11.4.2 為什么需要營銷增益模型 209
11.4.3 營銷增益模型的建模方法 210
11.4.4 營銷增益模型的評價指標 211
11.5 Python 實戰(zhàn):利用營銷增益模型識別營銷敏感人群 212
11.5.1 數(shù)據(jù)初步探索 212
11.5.2 數(shù)據(jù)預(yù)處理及數(shù)據(jù)可視化 214
11.5.3 構(gòu)建營銷增益模型 216
附錄A 縮略詞及中英文對照 . 219
參考文獻 . 221