《SAS編程與數據挖掘商業(yè)案例》是作者多年來在企業(yè)實踐工作中的經驗總結,詳細講解了使用SAS進行商業(yè)數據挖掘的方法。其中包含了目前公開出版的諸多SAS教材沒有的大量實戰(zhàn)內容!禨AS編程與數據挖掘商業(yè)案例》內容全面、新穎獨創(chuàng)、綜合性強,適合企業(yè)人員使用,也可作為數學、統(tǒng)計學、金融、電子商務、醫(yī)藥等專業(yè)的本科生、碩士生學習SAS編程和數據挖掘的參考資料。
從PDV角度詳盡剖析Base SAS常用語句代碼及應用,數據挖掘理論和商業(yè)應用緊密結合,原創(chuàng)相互貝葉斯文本分類和EM迭代算法代碼,三個典型的數據挖掘商業(yè)案例分析。 《SAS編程與數據挖掘商業(yè)案例》是作者多年來在企業(yè)實踐工作中的經驗總結,詳細講解了使用SAS進行商業(yè)數據挖掘的方法,其中包含了目前公開出版的諸多SAS教材沒有的大量實戰(zhàn)內容! 禨AS編程與數據挖掘商業(yè)案例》內容全面、新穎獨創(chuàng)、綜合性強,適合企業(yè)人員使用,也可作為數學、統(tǒng)計學、金融、電子商務、醫(yī)藥等專業(yè)的本科生、碩士生學習SAS編程和數據挖掘的參考資料。
當前國內的諸多數據挖掘書籍幾乎都是基于理論說明,很少深入介紹數據挖掘實踐,涉及SAS開發(fā)的更是少見。因此,從商業(yè)應用出發(fā),基于實踐而不是基于理論的數據挖掘書籍呼之欲出。本書作者從商業(yè)需求出發(fā),以商業(yè)人士的眼光來看待企業(yè)數據挖掘,并給出大量的商業(yè)實踐案例。把主流的數據挖掘技術用真實案例來實現是本書出版的初衷,同時為了滿足初學者需求,作者也給出了數據挖掘必備的基礎編程知識模塊。
全書共分兩部分。第一部分是SAS編程:第1章和第2章主要介紹SAS系統(tǒng)和編程基礎,同時介紹SAS數據處理最核心的內容——數據指針和PDV流程。該核心內容貫穿第一部分,是已出版的其他SAS圖書沒有的。
第3~9章主要介紹SAS的數據處理技術,也是第一部分的主要內容,包括數據集處理、變量處理和觀測處理等多種數據處理技術,同時也介紹了循環(huán)控制等稍難的內容,重要的是給出了諸多實際案例及商業(yè)應用。盡管第3~9章從表面上看和諸多已經出版的SAS圖書沒有什么大的不同,但是這些章節(jié)最大的亮點是作者對每一個示例和案例從數據指針和PDV流程的角度給予了最詳細的程序解讀,讓讀者真正讀懂程序,而不是停留在程序的表面。
第10章是第一部分r的難點。作者還是站在商業(yè)實踐的角度逐一介紹宏最常用的部分,同時也給出了非常詳細的程序解讀。
第11章介紹SOL過程。有關內容在國內同類書中都出現過,但是作者獨辟蹊徑,融合了項目實踐中諸多真正有用的語句,同時也給出了諸多開發(fā)建議和應注意的問題。
第12章介紹數據處理實踐。該章共包括四個方面的內容,幾乎都是目前國內沒有出現過的,如HASH對象及商業(yè)應用、正則表達式等。隨機抽樣也是數據處理經常面臨的問題,這里作者開發(fā)了在SAS系統(tǒng)中如何處理分層不等比例抽樣的代碼,這也是目前國內其他SAS圖書沒有介紹過的。
第二部分是數據挖掘商業(yè)案例:
第13章主要介紹數據挖掘概念和流程。數據挖掘流程尤其是商業(yè)流程是本章的重點。該流程告訴讀者一個真正的商業(yè)數據挖掘流程在商業(yè)環(huán)境中是如何實施的。
第14章重點介紹響應模型。響應模型是商業(yè)實踐中最常用的預測模型,基于第13章的流程規(guī)范給出了一個具體的商業(yè)案例研究。
第15章是客戶行為分析。該章有目前全球最流行的行為分析,包括“行為年齡”和“行為性別”(注意完全不同于具有自然屬性特征的“真實年齡”和“真實性別”),作者運用NaiveBayesian技術開發(fā)出一整套模型,并對該模型擁有完全自主知識產權。
第16章介紹文本挖掘。該章首先介紹了文本挖掘的流程,然后開發(fā)出基于NaiveBayesian文本分類算法和EM迭代思想的大型代碼,并成功應用于商業(yè)實踐。
出版說明
前言
第1章 SAS系統(tǒng)簡介
1.1 系統(tǒng)簡介
1.1.1 SAS系統(tǒng)與商務智能系統(tǒng)
1.1.2 SAS系統(tǒng)與其他數據庫的數據交換
1.1.3 SAS語言與SAS系統(tǒng)
1.1.4 SAS9瀏覽窗口簡介
1.2 一個簡單的編程實例
1.2.1 編寫一個SAS程序
1.2.2 提交一個SAS程序
1.2.3 保存和打開一個SAS程序
1.3 DATA步的數據指針和PDV流程
1.3.1 數據指針和PDV流程
1.3.2 DATA步執(zhí)行次數
第2章 SAS編程基礎
2.1 SAS邏輯庫
2.1.1 創(chuàng)建SAS邏輯庫
2.1.2 刪除SAS邏輯庫
2.1.3 永久邏輯庫和臨時邏輯庫
2.2 SAS數據集
2.2.1 SAS數據集命名規(guī)則
2.2.2 永久SAS數據集和臨時SAS數據集
2.2.3 SAS數據集結構
2.2.4 SAS數據集形式
2.3 SAS索引
2.3.1 創(chuàng)建索引
2.3.2 刪除索引
2.4 SAS目錄
2.5 數據字典
2.6 SAS變量
2.6.1 變量屬性
2.6.2 變量列表
2.6.3 自動變量
第3章 數據獲取與數據集操作
3.1 數據獲取
3.1.1 LIBNAME方式
3.1.2 PASSTHROUGH方式
3.1.3 IMPORT方式
3.1.4 INPUT方式
3.2 SET語句
3.2.1 語法說明
3.2.2 實例詳解
3.2.3 商業(yè)實踐
3.3 BY語句
3.3.1 語法說明
3.3.2 實例詳解
3.4 MERGE語句
3.4.1 語法說明
3.4.2 實例詳解
3.5 UPDATE語句
3.5.1 語法說明
3.5.2 實例詳解
3.6 MODIFY語句
3.6.1 語法說明
3.6.2 實例詳解
3.6.3 商業(yè)實踐
3.7 PUT語句
3.7.1 語法說明
3.7.2 實例詳解
3.7.3 商業(yè)實踐
3.8 FILE語句
3.8.1 語法說明
3.8.2 實例詳解
3.8.3 商業(yè)實踐
3.9 1INFLE語句
3.9.1 語法說明
3.9.2 實例詳解
3.9.3 商業(yè)實踐
第4章 SAS變量操作
4.1 賦值語句和累加語句
4.1.1 賦值語句
4.1.2 累加語句
4.2 KEEP語句和DROP語句
4.2.1 KEEP語句
4.2.2 DROP語句
4.3 IRETAIN語句
4.3.1 語法說明
4.3.2 實例詳解
4.3.3 商業(yè)實踐
4.4 ARRAY語句
4.4.1 語法說明
4.4.2 實例詳解
4.4.3 商業(yè)實踐
4.5 其他語句
4.5.1 RENAME語句
4.5.2 LENGTH語句
4.5.3 LABEI。語句
第5章 SAS觀測值操作
5.1 OUTPUT語句
5.1.1 語法說明
5.1.2 實例詳解
5.2 子集IF語句
5.2.1 語法說明
5.2.2 實例詳解
5.2.3 子集IF與OUTPUT語句比較
5.3 WHERE語句
5.3.1 語法說明
5.3.2 實例詳解
5.3.3 子集IF與WIIERE語句比較
5.4 REPLACE語句和REMOVE語句
5.4.1 REPLACE語句
5.4.2 REMOVE語句
5.4.3 REPLACE、REM0vE與OUTPUT應用
5.5 DELETE語句與STOP語句
5.5.1 DELETE語句
5.5.2 STOP語句
第6章 SAS數據集管理
6.1 APPEND過程
6.1.1 語法說明
6.1.2 實例詳解
6.2 SORT過程
6.2.1 語法說明
6.2.2 實例詳解
6.2.3 商業(yè)實踐
6.3 TRANSPOSE過程
6.3.1 語法說明
6.3.2 實例詳解
6.4 CONTENTS過程
6.4.1 語法說明
6.4.2 實例詳解
6.5 DATASETS過程
6.5.1 語法說明
6.5.2 實例詳解
第7章 DAIA步循環(huán)與控制
7.1 IF.THEN/ELSE語句與SELECT語句
7.1.1 lF.THEN/ELSE語句
7.1.2 SELECT語句
7.2 DO語句
7.2.1 D0組語句
7.2.2 D0循環(huán)語句
7.2.3 DOWHILE語句
7.2.4 DOUNTIL語句
7.2.5 DOOVER語句
7.2.6 商業(yè)實踐
7.3 各種控制語句
7.3.1 GOT0語句
7.3.2 CONTINUE語句與LEAVE語句
7.3.3 RETIJRN語句
第8章 常用全程語句
8.1 COMMENT語句
8.2 X語句
8.3 FILENAME語句
8.4 %INCLUDE語句
8.5 TITLE語句
8.6 FOOTNOTE語句
第9章 輸出控制
9.1 LOG窗口輸出控制
9.2 OUTPUT窗口輸出控制
9.3 常用ODS輸出控制
9.3.1 ODSLISTING
9.3.2 ODSRESUTS
9.3.3 ODSTRACE
9.3.4 ODS0UTPUT
9.3.5 ODSHTML
9.3.6 ODSCSVALL
9.3.7 ODSSELECT
9.3.8 ODSEXCLUDE
第10章 SAS宏變量
10.1 宏運行的內在機制
10.2 宏變量
10.2.1 定義宏變量
10.2.2 顯示宏變量
10.2.3 引用宏變量
10.3 宏程序
10.3.1 定義宏
10.3.2 調用宏
10.3.3 宏內宏
10.3.4 宏存儲
10.4 宏參數
10.4.1 創(chuàng)建參數
10.4.2 參數賦值
10.5 宏函數
10.5.1 通配函數
10.5.2 計算函數
10.5.3 字符函數
10.5.4 引用函數
10.6 宏語句
10.6.1 %IF.%TIIEN/%ELSE語句
10.6.2 %DO組語句
10.6.3 %DO循環(huán)語句
10.6.4 %DO%WHILE循環(huán)語句
10.6.5 %D0%UNTIL循環(huán)語句
10.7 宏應用
10.7.1 創(chuàng)建宏變量的八種方法
10.7.2 宏程序一般應用
10.7.3 宏程序高級應用
第11章 SQL過程
11.1 單表操作
11.2 多表操作
11.2.1 多表關聯
11.2.2 子查詢
11.2.3 合并查詢
11.2.4 MERGE與SQL比較
11.3 創(chuàng)建、更新與刪除表操作
11.3.1 創(chuàng)建表
11.3.2 行操作
11.3.3 列操作
11.3.4.刪除表
11.4 使用SQL注意的幾個問題
第12章 數據處理實踐
12.1 隨機抽樣
12.1.1 簡單無重復隨機抽樣
12.1.2 分層等比例隨機抽樣
12.1.3 分層不等比例隨機抽樣
12.1.4 隨機抽樣MACRO
12.2 HASH對象
12.2.1 HASH對象的引例
12.2.2 HASH對象的語法
12.2.3 HITER對象的引例
12.2.4 HITER對象的語法
12.2.5 商業(yè)實踐
12.3 FORMAT綜述
12.3.1 PROC步創(chuàng)建
12.3.2 DATA步創(chuàng)建
12.3.3 永久存儲及調用
12.4 正則表達式
12.4.1 語法說明
12.4.2 常用函數
12.4.3 實例詳解
12.5 宏在SAS與Excel轉換中的應用
12.5.1 SAS數據集轉換成Excel
12.5.2 Excel轉換成SAS數據集
第13章 數據挖掘概念、任務和流程
13.1 數據挖掘概念
13.2 數據挖掘任務
13.3 數據挖掘流程
13.3.1 定義商業(yè)目標
13.3.2 編制需求文檔
13.3.3 選擇數據源
13.3.4 建模流程圖
13.4 LOGISTIC建模及結果詳解
13.4.1 數學模型
13.4.2 參數估計
13.4.3 模型評價指標
13.4.4 回歸系數
13.4.5 變量篩選方法
13.4.6 應用舉例及輸出結果詳解
13.4.7 多值LOGISTIC模型
第14章 響應模型:定位新客戶
14.1 前期準備
14.1.1 商業(yè)需求
14.1.2 定義目標
14.1.3 選擇變量
14.2 數據獲取與數據處理
14.2.1 創(chuàng)建建模數據集
14.2.2 變量首次篩選
14.2.3 數據探索
14.2.4 數據清洗
14.2.5 變量二次篩選
14.2.6 變量三次篩選
14.2.7 字符變量壓縮
14.3 模型開發(fā)
14.3.1 全模型法選擇所有候選模型
14.3.2 逐步回歸法篩選候選模型
14.3.3 創(chuàng)建兩個重要數據集
14.3.4 創(chuàng)建LIFT圖
14.3.5 創(chuàng)建評分卡文件
14.4 模型驗證
14.4.1 評分卡文件導入
14.4.2 LIFT圖比較
14.4.3 模型確認
14.5 模型實施與監(jiān)控
14.5.1 模型實施
14.5.2 模型監(jiān)控
14.6 小結
第15章 行為建模:客戶行為屬性分析
15.1 前期準備
15.1.1 商業(yè)需求
15.1.2 定義目標
15.1.3 選擇建模方法
15.2 數據獲取與處理
15.3 模型開發(fā)
15.4 模型驗證
15.5 模型打分
15.6 模型預測
15.7 模型實施
15.8 小結
第16章 文本挖掘:Web文本分析
16.1 文本挖掘概念與流程
16.1.1 文本挖掘概念
16.1.2 文本挖掘流程
16.2 商業(yè)案例
16.2.1 商業(yè)需求
16.2.2 建?蚣茉O計
16.2.3 結合樸素貝葉斯文本分類的EM迭代
16.2.4 數據獲取與數據預處理
……
參考文獻
6.流失
在商業(yè)領域,流失意味著利潤的減少甚至賬戶關閉,主要發(fā)生在電信行業(yè)和銀行業(yè)。由于競爭對手的存在,流失會經常發(fā)生。如果能夠通過建立一個比較健壯的流失模型,能夠對那些可能在未來的幾個月內流失的客戶做出準確的預測,則從營銷角度就可以提前做好一些準備,如通過一些營銷手段來挽留這些客戶。從技術上,流失模型本質上和風險模型是一樣的,只是目標定義可能會有所不同。一種常見的流失定義是:在過去的6個月內賬戶余額皇現減少趨勢,并在第6個月余額低于公司規(guī)定的閾值或比例。
注意:響應模型是基于時間點的模型,而風險模型和流失模型是基于時間段的模型。
7.提升銷售和交叉銷售
提升銷售是指預測客戶購買更多同樣產品的可能性。交叉銷售是指預測客戶購買公司不同產品的可能性。提升銷售和交叉銷售對于縱向挖掘一個客戶的潛在利潤是非常重要的。從技術上來說,關聯規(guī)則也許能夠幫助公司發(fā)現客戶的特征,著名的“啤酒和尿布”就是多數數據挖掘圖書“言必稱希臘”的經典案例,但是在作者看來,“啤酒和尿布”如同“尼斯湖怪獸”一樣并非值得絕對信賴。在提升和交叉銷售領域,更多的關注應該是客戶消費對象本身的關聯性以及客戶的消費心理,這是更偏向于定性分析的技術,而不是定量分析的方法。
事實上,以上列舉的商業(yè)需求只是千千萬萬個商業(yè)需求中的部分代表,讀者能夠從中得到這樣的啟發(fā):所有的數據挖掘技術都是商業(yè)目標的一個實現,或簡單,或復雜。而商業(yè)應用的最高原則就是“效率、效果”。
13.3.2.編制需求文檔
在明確了商業(yè)目標之后,接下來就需要分析師編制需求文檔。需求文檔是商業(yè)目標的細化。完整的需求文檔應包括以下幾個部分:
項目計劃文檔(PPT)。
方法論設計文檔(Word)。
變量需求文檔(Excel)。
這三個項目涵蓋了商業(yè)客戶需求、團隊頭腦風暴成果、項目數據收集指標三個重要內容。
1.項目計劃文檔
項目計劃文檔是指實現客戶需求而制定的需求框架、計劃內容、路線圖和資源。由于該部分內容主要呈現給商業(yè)客戶,因此一般以PPT形式,幻燈片盡量控制在10張以下。