Python數(shù)據(jù)建模與模型優(yōu)化實(shí)戰(zhàn)
發(fā)布時(shí)間:2025-02-07 10:05:40
講師:傅一航 瀏覽次數(shù):8
課程描述INTRODUCTION
· 高層管理者· 中層領(lǐng)導(dǎo)· 一線員工
![](/Common/new/images/tb3_1.jpg)
![](/Common/new/images/tb3_2.jpg)
![](/Common/new/images/tb3_3.jpg)
日程安排SCHEDULE
課程大綱Syllabus
Python數(shù)據(jù)建模培訓(xùn)
【課程目標(biāo)】
本課程主要面向?qū)I(yè)人士的大數(shù)據(jù)建模競賽輔導(dǎo)需求(假定學(xué)員已經(jīng)完成Python建模及優(yōu)化--回歸篇/分類篇的學(xué)習(xí))。
通過本課程的學(xué)習(xí),達(dá)到如下目的:
1、 熟悉大賽常用集成模型
2、 掌握模型優(yōu)化常用措施,掌握超參優(yōu)化策略
3、 掌握特征工程處理,以及對模型質(zhì)量的影響
4、 掌握建模工程管道類(Pipeline, ColumnTransformer)的使用
【授課對象】
參加大數(shù)據(jù)建模大賽的IT專業(yè)人士。
要求精通Python語言,熟悉sklearn庫的基本使用等。
【課程大綱】
第一部分: 預(yù)測建模過程
1、 數(shù)據(jù)建模六步法
選擇模型:基于業(yè)務(wù)選擇恰當(dāng)?shù)臄?shù)據(jù)模型
屬性篩選:選擇對目標(biāo)變量有顯著影響的屬性來建模
訓(xùn)練模型:采用合適的算法,尋找到最合適的模型參數(shù)
評估模型:進(jìn)行評估模型的質(zhì)量,判斷模型是否可用
優(yōu)化模型:如果評估結(jié)果不理想,則需要對模型進(jìn)行優(yōu)化
應(yīng)用模型:如果評估結(jié)果滿足要求,則可應(yīng)用模型于業(yè)務(wù)場景
2、 數(shù)據(jù)挖掘常用的模型
數(shù)值預(yù)測模型:回歸預(yù)測、時(shí)序預(yù)測等
分類預(yù)測模型:邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等
市場細(xì)分:聚類、RFM、PCA等
產(chǎn)品推薦:關(guān)聯(lián)分析、協(xié)同過濾等
產(chǎn)品優(yōu)化:回歸、隨機(jī)效用等
產(chǎn)品定價(jià):定價(jià)策略/最優(yōu)定價(jià)等
3、 屬性篩選/特征選擇/變量降維
基于變量本身特征
基于相關(guān)性判斷
因子合并(PCA等)
IV值篩選(評分卡使用)
基于信息增益判斷(決策樹使用)
4、 訓(xùn)練模型及實(shí)現(xiàn)算法
模型原理
算法實(shí)現(xiàn)
5、 模型評估
評估指標(biāo)
評估方法
過擬合評估
6、 模型優(yōu)化
優(yōu)化模型:選擇新模型/修改模型
優(yōu)化數(shù)據(jù):新增顯著自變量
優(yōu)化公式:采用新的計(jì)算公式
7、 模型應(yīng)用
模型解讀
模型部署
模型應(yīng)用
8、 好模型是優(yōu)化出來的
第二部分: 常用集成模型
問題:數(shù)據(jù)建模的基本步驟是什么?每一步要重點(diǎn)考慮哪些知識和技能?
1、 常用模型類
線性模型、樹模型、概率模型
常見模型的優(yōu)缺點(diǎn)
2、 模型優(yōu)化常見思路
集成優(yōu)化:多個(gè)弱模型組成一個(gè)強(qiáng)模型
優(yōu)化模型:改善模型實(shí)現(xiàn)方式
a) 修改模型算法實(shí)現(xiàn),提升效率及模型質(zhì)量
b) 設(shè)置最優(yōu)超參,提升模型質(zhì)量(超參優(yōu)化)
c) 最優(yōu)模型選擇
優(yōu)化數(shù)據(jù):空值填充、特征選擇、特征合并、變量變換
3、 模型集成思想
Bagging
Boosting
Stacking
4、 競賽常用的集成模型
RandomForest
Adaboosting/GBDT/XGBoost
5、 各模型的原理及適用場景
第三部分: 數(shù)據(jù)清洗技巧
1、 數(shù)據(jù)清洗處理
重復(fù)值、錯(cuò)誤值、離群值、缺失值
異常數(shù)據(jù)的常見處理方式
2、 缺失值填充的常見方式
固定值填充
同類別均值填充
相鄰值填充(向下/向上填充)
兩點(diǎn)插值(相鄰值均值填充)
拉格朗日插值
預(yù)測方法填充
3、 不同填充方式對模型效果的影響
案例:泰坦尼克號沉船幸存者預(yù)測
第四部分: 特征選擇模式
1、 降維的兩大方式:特征選擇與因子合并
2、 特征選擇的三種模式
3、 基于變量本身的重要性篩選
缺失值所占比例過大
標(biāo)準(zhǔn)差/變異系數(shù)過?。╒arianceThreshold)
類別值比值失衡嚴(yán)重
類別值與樣本量比例過大
4、 Filter式(特征選擇與模型分離)
常用評估指標(biāo)(相關(guān)系數(shù)/顯著性/互信息等)
f_regression, f_classif, chi2,
mutual_info_regression, mutual_info_classif
案例:客戶流失預(yù)測的特征選擇
5、 Wrapper式(利用模型結(jié)果進(jìn)行特征選擇)
Sklearn實(shí)現(xiàn)(RFE/RFECV-Recursive Feature Elimination)
6、 embedded式(模型自帶特征選擇功能)
L1正則項(xiàng)(Lasso/ElasticNet)
信息增益(決策樹)
Sklearn實(shí)現(xiàn)(SelectFromModel)
7、 不同模式的優(yōu)缺點(diǎn)及應(yīng)用場景
8、 特征選擇的變量個(gè)數(shù)
第五部分: 特征合并方法
1、 特征合并與特征選擇
2、 因子分析(FactorAnalysis)
FA原理及思想
載荷矩陣相關(guān)概念(變量共同度/方差貢獻(xiàn)率)
如何確定降維的因子個(gè)數(shù)
3、 主成份分析(Principal Component Analysis)
PCA原理
PCA的幾何意義
案例:汽車油效預(yù)測
第六部分: 變量變換影響
1、 為何需要變量變換
假設(shè)條件需求,可比性需要,同權(quán)重需要
2、 因變量變換對模型質(zhì)量的影響
案例:波士頓房價(jià)預(yù)測
3、 特征標(biāo)準(zhǔn)化
標(biāo)準(zhǔn)化的作用: 縮小,消除/統(tǒng)一量綱
常用標(biāo)準(zhǔn)化方法:MinMaxScaler, StandardScaler,…
不同模型對標(biāo)準(zhǔn)化的要求
不同標(biāo)準(zhǔn)化對模型的影響
案例:醫(yī)院腫瘤預(yù)測
4、 其它變換:正態(tài)化、正則化
5、 變量派生:多項(xiàng)式等
案例:用戶收入預(yù)測
6、 管道實(shí)現(xiàn),簡化代碼
管道類Pipeline
列轉(zhuǎn)換類ColumnTransformer
特征合并類FeatureUnion
第七部分: XGBoost模型詳解及優(yōu)化
1、 基本參數(shù)配置
框架基本參數(shù): n_estimators, objective
性能相關(guān)參數(shù): learning_rate
模型復(fù)雜度參數(shù):max_depth,min_child_weight,gamma
生長策略參數(shù): grow_policy, tree_method, max_bin
隨機(jī)性參數(shù):subsample,colsample_bytree
正則項(xiàng)參數(shù):reg_alpha,reg_lambda
樣本不均衡參數(shù): scale_pos_weight
2、 早期停止與基類個(gè)數(shù)優(yōu)化(n_estimators、early_stopping_rounds)
3、 樣本不平衡處理
欠抽樣與過抽樣
scale_pos_weight= neg_num/pos_num
4、 XGBoost模型欠擬合優(yōu)化措施
增維,派生新特征
d) 非線性檢驗(yàn)
e) 相互作用檢驗(yàn)
降噪,剔除噪聲數(shù)據(jù)
f) 剔除不顯著影響因素
g) 剔除預(yù)測離群值(僅回歸)
h) 多重共線性檢驗(yàn)(僅回歸)
變量變換
i) 自變量標(biāo)準(zhǔn)化
j) 殘差項(xiàng)檢驗(yàn)與因變量變換
增加樹的深度與復(fù)雜度
k) 增大max_depth
l) 減小min_child_weight, gamma等
禁止正則項(xiàng)生效
5、 特征重要性評估與自動(dòng)特征選擇
6、 超參優(yōu)化策略:
分組調(diào)參:參數(shù)分組分別調(diào)優(yōu)
分層調(diào)參:先粗調(diào)再細(xì)調(diào)
7、 XGBoost模型過擬合優(yōu)化措施
降維,減少特征數(shù)量
限制樹的深度和復(fù)雜度
m) 減小max_depth
n) 增大min_child_weight,gamma等
采用dart模型來控制過擬合(引入dropout技術(shù))
啟用正則項(xiàng)懲罰:reg_alpha,reg_lambda等
啟用隨機(jī)采樣:subsample,colsample_bytree等
8、 Stacking模式:XGBoost+LR、XGBoost+RF等
9、 XGBoost的優(yōu)化模型:LightGBM
第八部分: 實(shí)戰(zhàn)訓(xùn)練篇
1、 互聯(lián)網(wǎng)廣告判斷模型
2、 客戶流失預(yù)測模型
3、 直銷響應(yīng)模型
結(jié)束:課程總結(jié)與問題答疑。
Python數(shù)據(jù)建模培訓(xùn)
轉(zhuǎn)載:http://xvaqeci.cn/gkk_detail/317091.html
已開課時(shí)間Have start time
- 傅一航
[僅限會(huì)員]