㈠ 常用聚類(K-means,DBSCAN)以及聚類的度量指標:
一年前需要用聚類演算法時,自己從一些sklearn文檔和博客粗略整理了一些相關的知識,記錄在電子筆記里備忘,現在發到網上,當時就整理的就很亂,以後有空慢慢把內容整理、完善,用作備忘。之前把電影標簽信息的聚類結果作為隱式反饋放進SVD++中去訓練,裡面有兩個小例子
利用條件熵定義的同質性度量:
sklearn.metrics.homogeneity_score:每一個聚出的類僅包含一個類別的程度度量。
sklearn.metrics.completeness:每一個類別被指向相同聚出的類的程度度量。
sklearn.metrics.v_measure_score:上面兩者的一種折衷:
v = 2 * (homogeneity * completeness) / (homogeneity + completeness)
可以作為聚類結果的一種度量。
sklearn.metrics.adjusted_rand_score:調整的蘭德系數。
ARI取值范圍為[-1,1],從廣義的角度來講,ARI衡量的是兩個數據分布的吻合程度
sklearn.metrics.adjusted_mutual_info_score:調整的互信息。
利用基於互信息的方法來衡量聚類效果需要實際類別信息,MI與NMI取值范圍為[0,1],AMI取值范圍為[-1,1]。
在scikit-learn中, Calinski-Harabasz Index對應的方法是metrics.calinski_harabaz_score.
CH指標通過計算類中各點與類中心的距離平方和來度量類內的緊密度,通過計算各類中心點與數據集中心點距離平方和來度量數據集的分離度,CH指標由分離度與緊密度的比值得到。從而,CH越大代表著類自身越緊密,類與類之間越分散,即更優的聚類結果。
silhouette_sample
對於一個樣本點(b - a)/max(a, b)
a平均類內距離,b樣本點到與其最近的非此類的距離。
silihouette_score返回的是所有樣本的該值,取值范圍為[-1,1]。
這些度量均是越大越好
K-means演算法應該算是最常見的聚類演算法,該演算法的目的是選擇出質心,使得各個聚類內部的inertia值最小化,計算方法如下:
inertia可以被認為是類內聚合度的一種度量方式,這種度量方式的主要缺點是:
(1)inertia假設數據內的聚類都是凸的並且各向同性( convex and isotropic),
各項同性是指在數據的屬性在不同方向上是相同的。數據並不是總能夠滿足這些前提假設的,
所以當數據事細長簇的聚類,或者不規則形狀的流形時,K-means演算法的效果不理想。
(2)inertia不是一種歸一化度量方式。一般來說,inertia值越小,說明聚類效果越好。
但是在高維空間中,歐式距離的值可能會呈現迅速增長的趨勢,所以在進行K-means之前首先進行降維操作,如PCA等,可以解決高維空間中inertia快速增長的問題,也有主意提高計算速度。
K-means演算法可以在足夠長的時間內收斂,但有可能收斂到一個局部最小值。
聚類的結果高度依賴質心的初始化,因此在計算過程中,採取的措施是進行不止一次的聚類,每次都初始化不同的質心。
sklearn中可以通過設置參數init='kmeans++'來採取k-means++初始化方案,
即初始化的質心相互之間距離很遠,這種方式相比於隨機初始質心,能夠取得更好的效果。
另外,sklearn中可以通過參數n_job,使得K-means採用並行計算的方式。
##sklearn 中K-means的主要參數:
1) n_clusters: 設定的k值
2)max_iter: 最大的迭代次數,一般如果是凸數據集的話可以不管這個值,如果數據集不是凸的,可能很難收斂,此時可以指定最大的迭代次數讓演算法可以及時退出循環。
3)n_init:用不同的初始化質心運行演算法的次數。由於K-Means是結果受初始值影響的局部最優的迭代演算法,因此需要多跑幾次以選擇一個較好的聚類效果,默認是10。如果你的k值較大,則可以適當增大這個值。
4)init: 即初始值選擇的方式,可以為完全隨機選擇'random',優化過的'k-means++'或者自己指定初始化的k個質心。一般建議使用默認的'k-means++'。
5)algorithm:有「auto」, 「full」 or 「elkan」三種選擇。"full"就是我們傳統的K-Means演算法, 「elkan」elkan K-Means演算法。默認的"auto"則會根據數據值是否是稀疏的,來決定如何選擇"full"和「elkan」。一般來說建議直接用默認的"auto"
聚類的中心
print clf.cluster_centers_
每個樣本所屬的簇
print clf.labels_
用來評估簇的個數是否合適,距離越小說明簇分的越好,選取臨界點的簇個數
print clf.inertia_
Sum of distances of samples to their closest cluster center.
兩個小例子(很久以前弄的,寫得比較簡略比較亂,有空再改,數據是movielen中的電影標簽信息):
例1:
例2,在區間[2,200]上遍歷k,並生成兩個聚類內部評價指標CH分、輪廓系數以及kmeans自帶inertia分和對應的k值的圖片來選擇k:
其中兩點相似度s(i, j)的度量默認採用負歐氏距離。
sklearn.cluster.AffinityPropagation
有參數preference(設定每一個點的偏好,將偏好於跟其他節點的相似性進行比較,選擇
高的作為exmplar,未設定則使用所有相似性的中位數)、damping (阻尼系數,
利用阻尼系數與1-阻尼系數對r 及 a進行有關迭代步數的凸組合,使得演算法收斂
default 0.5 可以取值與[0.5, 1])
cluster_centers_indices_:中心樣本的指標。
AP演算法的主要思想是通過數據點兩兩之間傳遞的信息進行聚類。
該演算法的主要優點是能夠自主計算聚類的數目,而不用人為制定類的數目。
其缺點是計算復雜度較大 ,計算時間長同時空間復雜度大,
因此該演算法適合對數據量不大的問題進行聚類分析。
數據點之間傳遞的信息包括兩個,吸引度(responsibility)r(i,k)和歸屬度(availability)a(i,k)。
吸引度r(i,k)度量的是質心k應當作為點i的質心的程度,
歸屬度a(i,k)度量的是點i應當選擇質心k作為其質心的程度。
其中t是迭代的次數,λ是阻尼因子,其值介於[0,1],在sklearn.cluster.AffinityPropagation中通過參數damping進行設置。
每次更新完矩陣後,就可以為每個數據點分配質心,分配方式?是針對數據點i,遍歷所有數據點k(包括其自身),
找到一個k使得r(i,k)+a(i,k)的值最大,則點k就是點i所屬的質心,迭代這個過程直至收斂。
所謂收斂就是所有點所屬的質心不再變化
首先說明不引入核函數時的情況。
演算法大致流程為:隨機選取一個點作為球心,以一定半徑畫一個高維球(數據可能是高維的),
在這個球范圍內的點都是這個球心的鄰居。這些鄰居相對於球心都存在一個偏移向量,
將這些向量相加求和再平均,就得到一個mean shift,起點在原球心,重點在球內的其他位置。
以mean shift的重點作為新的球心,重復上述過程直至收斂。
這個計算過程中,高維球內的點,無論其距離球心距離多遠,對於mean shift的計算權重是一樣的。
為了改善這種情況,在迭代計算mean shift的過程中引入了核函數
sklearn中相關實現是sklearn.cluster.MeanShift。
sklearn中實現的是自底向上的層次聚類,實現方法是sklearn.cluster.AgglomerativeClustering。
初始時,所有點各自單獨成為一類,然後採取某種度量方法將相近的類進行合並,並且度量方法有多種選擇。
合並的過程可以構成一個樹結構,其根節點就是所有數據的集合,葉子節點就是各條單一數據。
sklearn.cluster.AgglomerativeClustering中可以通過參數linkage選擇不同的度量方法,用來度量兩個類之間的距離,
可選參數有ward,complete,average三個。
ward:選擇這樣的兩個類進行合並,合並後的類的離差平方和最小。
complete:兩個類的聚類被定義為類內數據的最大距離,即分屬兩個類的距離最遠的兩個點的距離。
選擇兩個類進行合並時,從現有的類中找到兩個類使得這個值最小,就合並這兩個類。
average:兩個類內數據兩兩之間距離的平均值作為兩個類的距離。
同樣的,從現有的類中找到兩個類使得這個值最小,就合並這兩個類。
Agglomerative cluster有一個缺點,就是rich get richer現象,
這可能導致聚類結果得到的類的大小不均衡。
從這個角度考慮,complete策略效果最差,ward得到的類的大小最為均衡。
但是在ward策略下,affinity參數只能是「euclidean」,即歐式距離。
如果在歐氏距離不適用的環境中,average is a good alternative。
另外還應該注意參數affinity,這個參數設置的是計算兩個點之間距離時採用的策略,
注意和參數linkage區分,linkage設置的是衡量兩個類之間距離時採用的策略,
而點之間的距離衡量是類之間距離衡量的基礎。
affinity的可選數值包括 「euclidean」, 「l1」, 「l2」, 「manhattan」, 「cosine」,
『precomputed』. If linkage is 「ward」, only 「euclidean」 is accepted.
DBSCAN演算法的主要思想是,認為密度稠密的區域是一個聚類,各個聚類是被密度稀疏的區域劃分開來的。
也就是說,密度稀疏的區域構成了各個聚類之間的劃分界限。與K-means等演算法相比,該演算法的主要優點包括:可以自主計算聚類的數目,不需要認為指定;不要求類的形狀是凸的,可以是任意形狀的。
DBSCAN中包含的幾個關鍵概念包括core sample,non-core sample,min_sample,eps。
core samle是指,在該數據點周圍eps范圍內,至少包含min_sample個其他數據點,則該點是core sample,
這些數據點稱為core sample的鄰居。與之對應的,non-sample是該點周圍eps范圍內,所包含的數據點個數少於min_sample個。從定義可知,core sample是位於密度稠密區域的點。
一個聚類就是一個core sample的集合,這個集合的構建過程是一個遞歸的構成。
首先,找到任意個core sample,然後從它的鄰居中找到core sample,
接著遞歸的從這些鄰居中的core sample的鄰居中繼續找core sample。
要注意core sample的鄰居中不僅有其他core sample,也有一些non-core smaple,
也正是因為這個原因,聚類集合中也包含少量的non-core sample,它們是聚類中core sample的鄰居,
但自己不是core sample。這些non-core sample構成了邊界。
在確定了如何通過單一core sample找到了一個聚類後,下面描述DBSCAN演算法的整個流程。
首先,掃描數據集找到任意一個core sample,以此core sample為起點,按照上一段描述的方法進行擴充,確定一個聚類。然後,再次掃描數據集,找到任意一個不屬於以確定類別的core sample,重復擴充過程,再次確定一個聚類。
迭代這個過程,直至數據集中不再包含有core sample。
這也是為什麼DBSCAN不用認為指定聚類數目的原因。
DBSCAN演算法包含一定的非確定性。數據中的core sample總是會被分配到相同的聚類中的,哪怕在統一數據集上多次運行DBSCAN。其不確定性主要體現在non-core sample的分配上。
一個non-core sample可能同時是兩個core sample的鄰居,而這兩個core sample隸屬於不同的聚類。
DBSCAN中,這個non-core sample會被分配給首先生成的那個聚類,而哪個聚類先生成是隨機的。
sklearn中DBSCAN的實現中,鄰居的確定使用的ball tree和kd-tree思想,這就避免了計算距離矩陣。
㈡ 聚類結果怎麼看
聚類結果可以通過降維圖來可視化分析,還可以通過各種聚類指標來看
㈢ 如何評價spss系統聚類分析結果
這是用SPSS系統聚類法做出的聚類結果樹狀圖。1,系統聚類的基本思想是:開始將n個樣本各自作為一類,並規定樣本之間的距離和類與類之間的距離,然後將距離最近的兩類合並成一個新類,計算新類與其他類的距離;重復進行兩個最近類合並,每次減少一個類,紙質所有樣本合並為一類。你發的樹狀圖就是根據這個過程得來的。
2,最上面一行的距離值表示個案與個案的距離值,這個是軟體換算出的,不可以調整。
3,可能是你的SPSS版本較舊的原因,樹狀圖是斷開的,可能不太好分辨,新版本都是連上的線段。但仍可繼續做分析。根據樹狀圖可知,
第一次合並將7、8合為一類,1、3為一類,2、4、5為一類,說明它們之間最相似,距離最近。
第二次合並將6並入7、8的類。
第三次合並將1、3並入6、7、8所在類。此時總共就剩兩類了
第四次,把所有的個體合為一類
4,最終合為一類不代表不分類,而是你根據自己的需要確定類個數,再從圖上找結果。比如你最終想分類兩類,結果就是『7、8、6、1、3』和『2、4、5』
㈣ 聚類分析之KNN
我們先用一個例子體會下。
假設,我們想對電影的類型進行分類,統計了電影中打鬥次數、接吻次數,當然還有其他的指標也可以被統計到,如下表所示。
我們很容易理解《戰狼》《紅海行動》《碟中諜 6》是動作片,《前任 3》《春嬌救志明》《泰坦尼克號》是愛情片,但是有沒有一種方法讓機器也可以掌握這個分類的規則,當有一部新電影的時候,也可以對它的類型自動分類呢?
我們可以把打鬥次數看成 X 軸,接吻次數看成 Y 軸,然後在二維的坐標軸上,對這幾部電影進行標記,如下圖所示。對於未知的電影 A,坐標為 (x,y),我們需要看下離電影 A 最近的都有哪些電影,這些電影中的大多數屬於哪個分類,那麼電影 A 就屬於哪個分類。實際操作中,我們還需要確定一個 K 值,也就是我們要觀察離電影 A 最近的電影有多少個。
KNN 的工作原理
「近朱者赤,近墨者黑」可以說是 KNN 的工作原理。整個計算過程分為三步:
計算待分類物體與其他物體之間的距離;
統計距離最近的 K 個鄰居;
對於 K 個最近的鄰居,它們屬於哪個分類最多,待分類物體就屬於哪一類。
K 值如何選擇
你能看出整個 KNN 的分類過程,K 值的選擇還是很重要的。那麼問題來了,K 值選擇多少是適合的呢?
如果 K 值比較小,就相當於未分類物體與它的鄰居非常接近才行。這樣產生的一個問題就是,如果鄰居點是個雜訊點,那麼未分類物體的分類也會產生誤差,這樣 KNN 分類就會產生過擬合。
如果 K 值比較大,相當於距離過遠的點也會對未知物體的分類產生影響,雖然這種情況的好處是魯棒性強,但是不足也很明顯,會產生欠擬合情況,也就是沒有把未分類物體真正分類出來。
所以 K 值應該是個實踐出來的結果,並不是我們事先而定的。在工程上,我們一般採用交叉驗證的方式選取 K 值。
交叉驗證的思路就是,把樣本集中的大部分樣本作為訓練集,剩餘的小部分樣本用於預測,來驗證分類模型的准確性。所以在 KNN 演算法中,我們一般會把 K 值選取在較小的范圍內,同時在驗證集上准確率最高的那一個最終確定作為 K 值。
距離如何計算
在 KNN 演算法中,還有一個重要的計算就是關於距離的度量。兩個樣本點之間的距離代表了這兩個樣本之間的相似度。距離越大,差異性越大;距離越小,相似度越大。
關於距離的計算方式有下面五種方式:
歐氏距離;
曼哈頓距離;
閔可夫斯基距離;
切比雪夫距離;
餘弦距離。
其中前三種距離是 KNN 中最常用的距離,我給你分別講解下。
歐氏距離是我們最常用的距離公式,也叫做歐幾里得距離。在二維空間中,兩點的歐式距離就是:
同理,我們也可以求得兩點在 n 維空間中的距離:
曼哈頓距離在幾何空間中用的比較多。以下圖為例,綠色的直線代表兩點之間的歐式距離,而紅色和黃色的線為兩點的曼哈頓距離。所以曼哈頓距離等於兩個點在坐標繫上絕對軸距總和。用公式表示就是:
閔可夫斯基距離不是一個距離,而是一組距離的定義。對於 n 維空間中的兩個點 x(x1,x2,…,xn) 和 y(y1,y2,…,yn) , x 和 y 兩點之間的閔可夫斯基距離為:
其中 p 代表空間的維數,當 p=1 時,就是曼哈頓距離;當 p=2 時,就是歐氏距離;當 p→∞時,就是切比雪夫距離。
那麼切比雪夫距離怎麼計算呢?二個點之間的切比雪夫距離就是這兩個點坐標數值差的絕對值的最大值,用數學表示就是:max(|x1-y1|,|x2-y2|)。
餘弦距離實際上計算的是兩個向量的夾角,是在方向上計算兩者之間的差異,對絕對數值不敏感。在興趣相關性比較上,角度關系比距離的絕對值更重要,因此餘弦距離可以用於衡量用戶對內容興趣的區分度。比如我們用搜索引擎搜索某個關鍵詞,它還會給你推薦其他的相關搜索,這些推薦的關鍵詞就是採用餘弦距離計算得出的。
KD 樹
其實從上文你也能看出來,KNN 的計算過程是大量計算樣本點之間的距離。為了減少計算距離次數,提升 KNN 的搜索效率,人們提出了 KD 樹(K-Dimensional 的縮寫)。KD 樹是對數據點在 K 維空間中劃分的一種數據結構。在 KD 樹的構造中,每個節點都是 k 維數值點的二叉樹。既然是二叉樹,就可以採用二叉樹的增刪改查操作,這樣就大大提升了搜索效率。
在這里,我們不需要對 KD 樹的數學原理
了解太多,你只需要知道它是一個二叉樹的數據結構,方便存儲 K 維空間的數據就可以了。而且在 sklearn 中,我們直接可以調用 KD 樹,很方便。
用 KNN 做回歸
KNN 不僅可以做分類,還可以做回歸。首先講下什麼是回歸。在開頭電影這個案例中,如果想要對未知電影進行類型劃分,這是一個分類問題。首先看一下要分類的未知電影,離它最近的 K 部電影大多數屬於哪個分類,這部電影就屬於哪個分類。
如果是一部新電影,已知它是愛情片,想要知道它的打鬥次數、接吻次數可能是多少,這就是一個回歸問題。
那麼 KNN 如何做回歸呢?
對於一個新電影 X,我們要預測它的某個屬性值,比如打鬥次數,具體特徵屬性和數值如下所示。此時,我們會先計算待測點(新電影 X)到已知點的距離,選擇距離最近的 K 個點。假設 K=3,此時最近的 3 個點(電影)分別是《戰狼》,《紅海行動》和《碟中諜 6》,那麼它的打鬥次數就是這 3 個點的該屬性值的平均值,即 (100+95+105)/3=100 次。
總結
今天我給你講了 KNN 的原理,以及 KNN 中的幾個關鍵因素。比如針對 K 值的選擇,我們一般採用交叉驗證的方式得出。針對樣本點之間的距離的定義,常用的有 5 種表達方式,你也可以自己來定義兩個樣本之間的距離公式。不同的定義,適用的場景不同。比如在搜索關鍵詞推薦中,餘弦距離是更為常用的。
另外你也可以用 KNN 進行回歸,通過 K 個鄰居對新的點的屬性進行值的預測。
KNN 的理論簡單直接,針對 KNN 中的搜索也有相應的 KD 樹這個數據結構。KNN 的理論成熟,可以應用到線性和非線性的分類問題中,也可以用於回歸分析。
不過 KNN 需要計算測試點與樣本點之間的距離,當數據量大的時候,計算量是非常龐大的,需要大量的存儲空間和計算時間。另外如果樣本分類不均衡,比如有些分類的樣本非常少,那麼該類別的分類准確率就會低很多。
當然在實際工作中,我們需要考慮到各種可能存在的情況,比如針對某類樣本少的情況,可以增加該類別的權重。
同樣 KNN 也可以用於推薦演算法,雖然現在很多推薦系統的演算法會使用 TD-IDF、協同過濾、Apriori 演算法,不過針對數據量不大的情況下,採用 KNN 作為推薦演算法也是可行的。
㈤ 電影用戶屬性聚類的代碼
這類代碼基於電影的評分和用戶屬性的協同過濾混合推薦演算法實現。
屬性聚類的代碼包括系統聚類和動態聚類兩種,系統聚類分析更加直觀,易懂,而動態聚類則更加快速,動態感。
㈥ 如何用聚類取把電影評分數據集分類
spss聚類分析如果是使用的歐式平方距離進行的分類會產生一張梯度表,利用它做圖可以形成聚類的樹狀圖,圖上距離越近的類別相似度越高,表格反而沒有樹狀圖看起來直觀。樹狀圖以距離為標准進行分類,一般學位論文或者期刊論文都採用發表樹狀圖的形式來進行聚類分析表述
㈦ 如何用聚類取把電影評分數據集分類
聚類分析指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源於很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域,很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
㈧ 如何評價聚類結果的好壞
聚類的評估也需要預先標注,把相似的數據放到一個堆(文件)里。演算法完成後再進行測試,主要測試宏觀准確度,宏觀召回率,宏觀混雜度。
基於不同演算法,會有不同指標,通常較通用的應該一定都會有Entropy熵和Accuracy,(Accuracy 里可以包含了precision, recall, f-measure.)
通常會加上SSE (Sum of squared errors)平方誤差和,其他演算法會有不同指標。
總體思想為一個cluster聚類內的數據點聚集在一起的密度越高,圈子越小,離centroid中心點越近,那麼這個聚類的總體質量相對來說就會越好。
(8)電影評分聚類分析結果擴展閱讀
聚類分析將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程。它是一種重要的人類行為。
聚類分析的目標就是在相似的基礎上收集數據來分類。聚類源於很多領域,包括數學,計算機科學,統計學,生物學和經濟學。在不同的應用領域。
很多聚類技術都得到了發展,這些技術方法被用作描述數據,衡量不同數據源間的相似性,以及把數據源分類到不同的簇中。
㈨ 07_推薦系統演算法詳解
基於人口統計學的推薦與用戶畫像、基於內容的推薦、基於協同過濾的推薦。
1、基於人口統計學的推薦機制( Demographic-based Recommendation)是一種最易於實現的推薦方法,它只是簡單的根據系統用戶的基本信息發現用戶的相關程度,然後將相似用戶喜愛的其他物品推薦給當前用戶。
2、對於沒有明確含義的用戶信息(比如登錄時間、地域等上下文信息),可以通過聚類等手段,給用戶打上分類標簽。
3、對於特定標簽的用戶,又可以根據預設的規則(知識)或者模型,推薦出對應的物品。
4、用戶信息標簽化的過程一般又稱為 用戶畫像 ( User Profiling)。
(1)用戶畫像( User Profile)就是企業通過收集與分析消費者社會屬性、生活習慣、消費行為等主要信息的數據之後,完美地抽象出一個用戶的商業全貌作是企業應用大數據技術的基本方式。
(2)用戶畫像為企業提供了足夠的信息基礎,能夠幫助企業快速找到精準用戶群體以及用戶需求等更為廣泛的反饋信息。
(3)作為大數據的根基,它完美地抽象出一個用戶的信息全貌,為進一步精準、快速地分析用戶行為習慣、消費習慣等重要信息,提供了足夠的數據基礎。
1、 Content- based Recommendations(CB)根據推薦物品或內容的元數據,發現物品的相關性,再基於用戶過去的喜好記錄,為用戶推薦相似的物品。
2、通過抽取物品內在或者外在的特徵值,實現相似度計算。比如一個電影,有導演、演員、用戶標簽UGC、用戶評論、時長、風格等等,都可以算是特徵。
3、將用戶(user)個人信息的特徵(基於喜好記錄或是預設興趣標簽),和物品(item)的特徵相匹配,就能得到用戶對物品感興趣的程度。在一些電影、音樂、圖書的社交網站有很成功的應用,有些網站還請專業的人員對物品進行基因編碼/打標簽(PGC)。
4、 相似度計算:
5、對於物品的特徵提取——打標簽(tag)
- 專家標簽(PGC)
- 用戶自定義標簽(UGC)
- 降維分析數據,提取隱語義標簽(LFM)
對於文本信息的特徵提取——關鍵詞
- 分詞、語義處理和情感分析(NLP)
- 潛在語義分析(LSA)
6、 基於內容推薦系統的高層次結構
7、 特徵工程
(1)特徵( feature):數據中抽取出來的對結果預測有用的信息。
特徵的個數就是數據的觀測維度。
特徵工程是使用專業背景知識和技巧處理數據,使得特徵能在機器學習演算法上發揮更好的作用的過程。
特徵工程一般包括特徵清洗(采樣、清洗異常樣本),特徵處理和特徵選擇。
特徵按照不同的數據類型分類,有不同的特徵處理方法:數值型、類別型、時間型、統計型。
(2)數值型特徵處理
用連續數值表示當前維度特徵,通常會對數值型特徵進行數學上的處理,主要的做法是歸一化和離散化。
* 幅度調整歸一化:
特徵與特徵之間應該是平等的,區別應該體現在 特徵內部 。
例如房屋價格和住房面積的幅度是不同的,房屋價格可能在3000000~15000000(萬)之間,而住房面積在40-300(平方米)之間,那麼明明是平等的兩個特徵,輸入到相同的模型中後由於本身的幅值不同導致產生的效果不同,這是不合理的
* 數值型特徵處理——離散化
離散化的兩種方式:等步長——簡單但不一定有效;等頻——min -> 25% -> 75% -> max
兩種方法對比:
等頻的離散化方法很精準,但需要每次都對數據分布進行一遍從新計算,因為昨天用戶在淘寶上買東西的價格分布和今天不一定相同,因此昨天做等頻的切分點可能並不適用,而線上最需要避免的就是不固定,需要現場計算,所以昨天訓練出的模型今天不一定能使用。
等頻不固定,但很精準,等步長是固定的,非常簡單,因此兩者在工業上都有應用。
(3) 類別型特徵處理
類別型數據本身沒有大小關系,需要將它們編碼為數字,但它們之間不能有預先設定的大小關系,因此既要做到公平,又要區分開它們,那麼直接開辟多個空間。
One-Hot編碼/啞變數:One-Hot編碼/啞變數所做的就是將類別型數據平行地展開,也就是說,經過One-Hot編碼啞變數後,這個特徵的空間會膨脹。
(4) 時間型特徵處理
時間型特徵既可以做連續值,又可以看做離散值。
連續值:持續時間(網頁瀏覽時長);間隔時間(上一次購買/點擊離現在的時間間隔)。
離散值:一天中哪個時間段;一周中的星期幾;一年中哪個月/星期;工作日/周末。
(5) 統計型特徵處理
加減平均:商品價格高於平均價格多少,用戶在某個品類下消費超過多少。
分位線:商品屬於售出商品價格的分位線處。
次序性:商品處於熱門商品第幾位。
比例類:電商中商品的好/中/差評比例。
8、 推薦系統常見反饋數據 :
9、 基於UGC的推薦
用戶用標簽來描述對物品的看法,所以用戶生成標簽(UGC)是聯系用戶和物品的紐帶,也是反應用戶興趣的重要數據源。
一個用戶標簽行為的數據集一般由一個三元組(用戶,物品,標簽)的集合表示,其中一條記錄(u,i,b)表示用戶u給物品打上了標簽b。
一個最簡單的演算法:
- 統計每個用戶最常用的標簽
- 對於每個標簽,統計被打過這個標簽次數最多的物品
- 對於一個用戶,首先找到他常用的標簽,然後找到具有這些標簽的最熱門的物品,推薦給他
- 所以用戶u對物品i的興趣公式為 ,其中 使用戶u打過標簽b的次數, 是物品i被打過標簽b的次數。
簡單演算法中直接將用戶打出標簽的次數和物品得到的標簽次數相乘,可以簡單地表現出用戶對物品某個特徵的興趣。
這種方法傾向於給熱門標簽(誰都會給的標簽,如「大片」、「搞笑」等)、熱門物品(打標簽人數最多)比較大的權重,如果一個熱門物品同時對應著熱門標簽,那它就會「霸榜」,推薦的個性化、新穎度就會降低。
類似的問題,出現在新聞內容的關鍵字提取中。比如以下新聞中,哪個關鍵字應該獲得更高的權重?
10、 TF-IDF:詞頻逆文檔頻率 ( Term Frequency- -Inverse Document Frequency,TF-DF)是一種用於資訊檢索與文本挖掘的常用加權技術。
TFDF是一種統計方法,用以評估一個字詞對於一個文件集或一個語料庫中的其中份文件的重要程度。字詞的重要性隨著它在文件中出現的次數成正比增加,但同時會隨著它在語料庫中出現的頻率成反比下降。
TFIDF=TF IDF
TF-IDF的主要思想是 :如果某個詞或短語在一篇文章中出現的頻率TF高,並且在其他文章中很少出現,則認為此詞或者短語具有很好的類別區分能力,適合用來分類。
TF-DF加權的各種形式常被搜索引擎應用,作為文件與用戶查詢之間相關程度的度量或評級。
詞頻( Term Frequency,TF) :指的是某一個給定的詞語在該文件中出現的頻率。這個數字是對詞數的歸一化,以防止偏向更長的文件。(同一個詞語在長文件里可能會比短文件有更高的詞數,而不管該詞語重要與否。) ,其中 表示詞語 i 在文檔 j 中出現的頻率, 表示 i 在 j 中出現的次數, 表示文檔 j 的總詞數。
逆向文件頻率( Inverse Document Frequency,IDF) :是一個詞語普遍重要性的度量,某一特定詞語的IDF,可以由總文檔數目除以包含該詞語之文檔的數目,再將得到的商取對數得到 ,其中 表示詞語 i 在文檔集中的逆文檔頻率,N表示文檔集中的文檔總數, 表示文檔集中包含了詞語 i 的文檔數。
(11) TF-IDF對基於UGC推薦的改進 : ,為了避免熱門標簽和熱門物品獲得更多的權重,我們需要對「熱門進行懲罰。
借鑒TF-IDF的思想,以一個物品的所有標簽作為「文檔」,標簽作為「詞語」,從而計算標簽的「詞頻」(在物品所有標簽中的頻率)和「逆文檔頻率」(在其它物品標簽中普遍出現的頻率)。
由於「物品i的所有標簽」 應該對標簽權重沒有影響,而 「所有標簽總數」 N 對於所有標簽是一定的,所以這兩項可以略去。在簡單演算法的基礎上,直接加入對熱門標簽和熱門物品的懲罰項: ,其中, 記錄了標簽 b 被多少個不同的用戶使用過, 記錄了物品 i 被多少個不同的用戶打過標簽。
(一)協同過濾(Collaborative Filtering, CF)
1、基於協同過濾(CF)的推薦:基於內容( Content based,CB)主要利用的是用戶評價過的物品的內容特徵,而CF方法還可以利用其他用戶評分過的物品內容。
CF可以解決CB的一些局限:
- 物品內容不完全或者難以獲得時,依然可以通過其他用戶的反饋給出推薦。
- CF基於用戶之間對物品的評價質量,避免了CB僅依賴內容可能造成的對物品質量判斷的干。
- CF推薦不受內容限制,只要其他類似用戶給出了對不同物品的興趣,CF就可以給用戶推薦出內容差異很大的物品(但有某種內在聯系)
分為兩類:基於近鄰和基於模型。
2、基於近鄰的推薦系統:根據的是相同「口碑」准則。是否應該給Cary推薦《泰坦尼克號》?
(二)基於近鄰的協同過濾
1、 基於用戶(User-CF): 基於用戶的協同過濾推薦的基本原理是,根據所有用戶對物品的偏好,發現與當前用戶口味和偏好相似的「鄰居」用戶群,並推薦近鄰所偏好的物品。
在一般的應用中是採用計算「K-近鄰」的演算法;基於這K個鄰居的歷史偏好信息,為當前用戶進行推薦。
User-CF和基於人口統計學的推薦機制:
- 兩者都是計算用戶的相似度,並基於相似的「鄰居」用戶群計算推薦。
- 它們所不同的是如何計算用戶的相似度:基於人口統計學的機制只考慮用戶本身的特徵,而基於用戶的協同過濾機制可是在用戶的歷史偏好的數據上計算用戶的相似度,它的基本假設是,喜歡類似物品的用戶可能有相同或者相似的口味和偏好。
2、基於物品(Item-CF):基於項目的協同過濾推薦的基本原理與基於用戶的類似,只是使用所有用戶對物品的偏好,發現物品和物品之間的相似度,然後根據用戶的歷史偏好信息,將類似的物品推薦給用戶。
Item-CF和基於內容(CB)的推薦
- 其實都是基於物品相似度預測推薦,只是相似度計算的方法不一樣,前者是從用戶歷史的偏好推斷,而後者是基於物品本身的屬性特徵信息。
同樣是協同過濾,在基於用戶和基於項目兩個策略中應該如何選擇呢?
- 電商、電影、音樂網站,用戶數量遠大於物品數量。
- 新聞網站,物品(新聞文本)數量可能大於用戶數量。
3、 User-CF和Item-CF的比較
同樣是協同過濾,在User-CF和ltem-CF兩個策略中應該如何選擇呢?
Item-CF應用場景
- 基於物品的協同過濾( Item-CF ) 推薦機制是 Amazon在基於用戶的機制上改良的一種策略因為在大部分的Web站點中,物品的個數是遠遠小於用戶的數量的,而且物品的個數和相似度相對比較穩定,同時基於物品的機制比基於用戶的實時性更好一些,所以 Item-CF 成為了目前推薦策略的主流。
User-CF應用場景
- 設想一下在一些新聞推薦系統中,也許物品一一也就是新聞的個數可能大於用戶的個數,而且新聞的更新程度也有很快,所以它的相似度依然不穩定,這時用 User-cf可能效果更好。
所以,推薦策略的選擇其實和具體的應用場景有很大的關系。
4、 基於協同過濾的推薦優缺點
(1)基於協同過濾的推薦機制的優點:
它不需要對物品或者用戶進行嚴格的建模,而且不要求對物品特徵的描述是機器可理解的,所以這種方法也是領域無關的。
這種方法計算出來的推薦是開放的,可以共用他人的經驗,很好的支持用戶發現潛在的興趣偏好。
(2)存在的問題
方法的核心是基於歷史數據,所以對新物品和新用戶都有「冷啟動」的問題。
推薦的效果依賴於用戶歷史好數據的多少和准確性。
在大部分的實現中,用戶歷史偏好是用稀疏矩陣進行存儲的,而稀疏矩陣上的計算有些明顯的問題,包括可能少部分人的錯誤偏好會對推薦的准確度有很大的影響等等。
對於一些特殊品味的用戶不能給予很好的推薦。
(三)基於模型的協同過濾
1、基本思想
(1)用戶具有一定的特徵,決定著他的偏好選擇
(2)物品具有一定的特徵,影響著用戶需是否選擇它。
(3)用戶之所以選擇某一個商品,是因為用戶特徵與物品特徵相互匹配。
基於這種思想,模型的建立相當於從行為數據中提取特徵,給用戶和物品同時打上「標簽」;這和基於人口統計學的用戶標簽、基於內容方法的物品標簽本質是一樣的,都是特徵的提取和匹配。
有顯性特徵時(比如用戶標簽、物品分類標簽)我們可以直接匹配做出推薦;沒有時,可以根據已有的偏好數據,去發據出隱藏的特徵,這需要用到隱語義模型(LFM)。
2、基於模型的協同過濾推薦,就是基於樣本的用戶偏好信息,訓練一個推薦模型,然後根據實時的用戶喜好的信息進行預測新物品的得分,計算推薦
基於近鄰的推薦和基於模型的推薦
- 基於近鄰的推薦是在預測時直接使用已有的用戶偏好數據,通過近鄰數據來預測對新物品的偏好(類似分類)
- 而基於模型的方法,是要使用這些偏好數據來訓練模型,找到內在規律,再用模型來做預測(類似回歸)
訓練模型時,可以基於標簽內容來提取物品特徵,也可以讓模型去發據物品的潛在特徵;這樣的模型被稱為 隱語義模型 ( Latent Factor Model,LFM)。
(1)隱語義模型(LFM):用隱語義模型來進行協同過濾的目標:
- 揭示隱藏的特徵,這些特徵能夠解釋為什麼給出對應的預測評分
- 這類特徵可能是無法直接用語言解釋描述的,事實上我們並不需要知道,類似「玄學」
通過矩陣分解進行降維分析
- 協同過濾演算法非常依賴歷史數據,而一般的推薦系統中,偏好數據又往往是稀疏的;這就需要對原始數據做降維處理。
- 分解之後的矩陣,就代表了用戶和物品的隱藏特徵
隱語義模型的實例:基於概率的隱語義分析(pLSA)、隱式迪利克雷分布模型(LDA)、矩陣因子分解模型(基於奇異值分解的模型,SVD)
(2)LFM降維方法——矩陣因子分解
(3)LFM的進一步理解
我們可以認為,用戶之所以給電影打出這樣的分數,是有內在原因的,我們可以挖掘出影響用戶打分的隱藏因素,進而根據未評分電影與這些隱藏因素的關聯度,決定此未評分電影的預測評分。
應該有一些隱藏的因素,影響用戶的打分,比如電影:演員、題材、年代…甚至不定是人直接可以理解的隱藏因子。
找到隱藏因子,可以對user和Iiem進行關聯(找到是由於什麼使得user喜歡/不喜歡此Item,什麼會決定user喜歡/不喜歡此item),就可以推測用戶是否會喜歡某一部未看過的電影。
(4)矩陣因子分解
(5)模型的求解——損失函數
(6)模型的求解演算法——ALS
現在,矩陣因子分解的問題已經轉化成了一個標準的優化問題,需要求解P、Q,使目標損失函數取最小值。
最小化過程的求解,一般採用隨機梯度下降演算法或者交替最小二乘法來實現交替最小二乘法( Alternating Least Squares,ALS)
ALS的思想是,由於兩個矩陣P和Q都未知,且通過矩陣乘法耦合在一起,為了使它們解耦,可以先固定Q,把P當作變數,通過損失函數最小化求出P,這就是一個經典的最小二乘問題;再反過來固定求得的P,把Q當作變數,求解出Q:如此交替執行,直到誤差滿足閱值條件,或者到達迭代上限。
(7)梯度下降演算法