流失用戶預(yù)警本質(zhì)上就是通過分析用戶可能流失的原因,將這些原因通過數(shù)據(jù)的形式具象出來作為原因,從而給用戶打上流失概率標(biāo)簽結(jié)果的一個過程,抽象出來就是一個由特征到標(biāo)簽的機器學(xué)習(xí)的分類問題。

既然是分類問題,就少不了以下幾個關(guān)鍵的環(huán)節(jié)。
樣本選擇、數(shù)據(jù)處理
觀察期定義流失:由于機器學(xué)習(xí)需要訓(xùn)練集和測試集,所以要定義一個足夠長、樣本量足夠多的觀察期,采集觀察期內(nèi)用戶的數(shù)據(jù)以及用戶流失概率的樣本作為訓(xùn)練集和測試集,比如可以取過去半年以來用戶的數(shù)據(jù)作為樣本,由于用戶是否流失結(jié)果已知,可以給用戶打上流失概率的標(biāo)簽,這些樣本經(jīng)過特征工程后作為分類模型的輸入樣本,是模型學(xué)習(xí)分類規(guī)則的重要數(shù)據(jù)來源。
表現(xiàn)期采集用戶行為:觀察期數(shù)據(jù)的規(guī)律已經(jīng)被模型學(xué)習(xí)到,就需要采集下一個窗口的用戶行為數(shù)據(jù),基于此預(yù)測發(fā)生這些行為的用戶的流失概率
特征工程
緊接著上一環(huán)節(jié)樣本的選擇,接下來就是最重要而且是最具有決定意義的環(huán)節(jié)了—特征工程,機器學(xué)習(xí)的上限是由特征工程決定的,任何形式的調(diào)優(yōu)只是無限接近這個上限。特征工程一定是基于業(yè)務(wù)的深刻理解和剖析!一定是基于對業(yè)務(wù)的深刻理解和剖析!一定是基于對業(yè)務(wù)的深刻理解和剖析!重要的事情說三遍!機器學(xué)習(xí)的效果取決于特征工程,特征工程的關(guān)鍵在于業(yè)務(wù)的熟悉程度。只有對業(yè)務(wù)足夠熟悉,才能將可能影響用戶流失的原因準(zhǔn)確的數(shù)字化、具象化,才能從本質(zhì)上找到原因,而不是原因的表象,進(jìn)而才能找到影響留存的關(guān)鍵特征。
舉例來說,用戶的活躍時長看似是一個和流失非常相關(guān)的特征,但是時長并不是用戶流失的原因,可能只是產(chǎn)品迭代后用戶找不到常用功能這個原因的表象,因為常用功能變了位置沒有找到,覺得產(chǎn)品不好用了,逐漸開始尋找其他的替代產(chǎn)品,才導(dǎo)致使用時長變短,這個才是根因,而找到根因的過程無疑是需要對業(yè)務(wù)有深刻理解的。
一般來說,我們需要考慮的特征可能有以下幾個類別:
用戶的基本屬性:性別,年齡,收入水平,區(qū)域等,不同類型的用戶可能流失也有所區(qū)別
用戶的產(chǎn)品行為:所處產(chǎn)品的生命周期,活躍的頻次,關(guān)鍵功能的使用頻次等,這些我們稱之為基礎(chǔ)指標(biāo),基礎(chǔ)指標(biāo)一般是流失原因的表象,和流失具有相關(guān)性,但不具備因果性,不是導(dǎo)致流失的關(guān)鍵特征
其他加工指標(biāo):基礎(chǔ)指標(biāo)可能不能很好的挖掘到影響留存的關(guān)鍵特征,需要基于業(yè)務(wù)理解加工出新的指標(biāo),和基礎(chǔ)指標(biāo)一起作為模型訓(xùn)練的特征。常見的加工方法有:
深度指標(biāo):反應(yīng)用戶使用深度的指標(biāo),用戶不僅要用,而且要用的比較深入,比如關(guān)鍵功能的使用次數(shù),有的用戶可能只是用了一些邊緣性的功能,還未接觸到關(guān)鍵功能就流失了,這是很可惜的,所以用這個深度指標(biāo)可以預(yù)測用戶是否可能流失的。
頻次指標(biāo):用戶不僅要用的深,還要用的頻繁,這個頻繁的定義依據(jù)不同的產(chǎn)品類型而有不同的定義,有的產(chǎn)品可能需要每天都要用,甚至一天要用幾次,有的可能要求一周要用幾次,不一而足。但是可以根據(jù)產(chǎn)品的特點加工出一個頻次指標(biāo),比如日/周均使用次數(shù)或者日/周均使用天數(shù),這樣用戶的使用頻次得以表征。
趨勢指標(biāo):用戶使用產(chǎn)品的趨勢變化,用戶使用的趨勢直接關(guān)系著用戶的流失,如果一個用戶使用的越來越少了,那大概率用戶是要流失了,所以一些常見的趨勢指標(biāo)如近三個月每周平均活躍天數(shù)的變化率,可以理解為一個斜率,如果每周的平均活躍天數(shù)在一直減少,斜率應(yīng)該是負(fù)值,否則斜率應(yīng)該是正值,以此表征用戶使用情況的變化趨勢。
模型選擇
特征構(gòu)造完成后,就需要進(jìn)行模型的選擇了,對于分類模型,一般常用的有邏輯回歸,決策樹,SVM,XGboost等,每種模型都有各自的優(yōu)缺點,也對特征有一定的要求,我們無需在模型選擇上花費太多精力,可以預(yù)選一些模型,帶入樣本進(jìn)行訓(xùn)練,觀察不同模型的分類效果,選取效果最好的一個作為訓(xùn)練模型即可,這里的效果主要通過分類模型的評估標(biāo)準(zhǔn)來評價,比如混淆矩陣,f1值,還要考慮模型的泛化能力等。流失預(yù)警模型構(gòu)造的重點在于特征工程,而非模型選擇,所以這部分不是重點,不再詳細(xì)展開,需要的可以學(xué)習(xí)相關(guān)的資料。
模型訓(xùn)練與預(yù)測
特征加工完成,訓(xùn)練模型確定后就需要將樣本進(jìn)行訓(xùn)練,并通過調(diào)參等不斷優(yōu)化模型效果,當(dāng)各項指標(biāo)滿足要求后,模型訓(xùn)練完成,就可以上線進(jìn)行預(yù)測了,對表現(xiàn)期的用戶進(jìn)行預(yù)測,評估其流失的可能性,進(jìn)而進(jìn)行針對性的運營動作,到這里就完成了用戶流失預(yù)警模型的搭建。



皖公網(wǎng)安備 34010202600669



