利用數(shù)據(jù)庫(kù)技術(shù)分析大數(shù)據(jù)技術(shù)原理?
數(shù)據(jù)挖掘中數(shù)據(jù)篩選的算法分析主要有以下幾種。
分類(lèi)算法分析
分類(lèi)數(shù)據(jù)挖掘就是找出常見(jiàn)事物的相同屬性,以及不同事物之間的差異。利用發(fā)現(xiàn)的相似或不同之處對(duì)事物進(jìn)行分類(lèi)。決策樹(shù)的優(yōu)點(diǎn)是描述簡(jiǎn)單,在數(shù)據(jù)量較大的情況下仍然可以快速的對(duì)數(shù)據(jù)進(jìn)行分類(lèi)。分類(lèi)算法通常基于決策樹(shù)來(lái)實(shí)現(xiàn)。設(shè)置的分類(lèi)類(lèi)別都是用葉子節(jié)點(diǎn)表示的,中間節(jié)點(diǎn)用來(lái)表示事物的屬性。在構(gòu)造決策樹(shù)的時(shí)候,決策樹(shù)不是完全不變的,而是不斷變化和完善的。通常,建立的決策樹(shù)會(huì)被實(shí)驗(yàn)。如果決策樹(shù)對(duì)所有給定對(duì)象的分類(lèi)結(jié)果可以不滿足預(yù)期要求,將通過(guò)添加一些特殊示例來(lái)改進(jìn)。這個(gè)過(guò)程會(huì)在后續(xù)的實(shí)驗(yàn)中繼續(xù),直到?jīng)Q策樹(shù)能夠?qū)o定的事物進(jìn)行準(zhǔn)確的分類(lèi),形成更完善的決策樹(shù)。
分類(lèi)算法廣泛用于建立模型,并且經(jīng)常用于信用和客戶類(lèi)別分析模型。在郵件營(yíng)銷(xiāo)中,可以利用這種分類(lèi)算法對(duì)現(xiàn)有客戶的過(guò)往消費(fèi)信息進(jìn)行分析,得到購(gòu)買(mǎi)力高的客戶特征列表,從而對(duì)這類(lèi)客戶進(jìn)行精準(zhǔn)營(yíng)銷(xiāo),獲取更多客戶。在建立模型時(shí),利用決策樹(shù)方法對(duì)前期信息進(jìn)行分類(lèi),得到前期消費(fèi)者的共同點(diǎn),收集他們的共同特征,得到消費(fèi)者的主要特征。最后得到一個(gè)可以判斷客戶的決策樹(shù),這樣就可以判斷剩下的客戶,得到更有價(jià)值的潛在客戶列表。這種方法是在對(duì)現(xiàn)有信息進(jìn)行分析和分類(lèi)的基礎(chǔ)上,將現(xiàn)有信息分為不同的類(lèi)別,使企業(yè)能夠更有針對(duì)性地為不同群體提供服務(wù),從而提高企業(yè)決策的效率和準(zhǔn)確性。
聚類(lèi)算法分析
聚類(lèi)算法的作用是將具有相同特征的事物進(jìn)行分組,也叫分組分析。聚類(lèi)算法可以用來(lái)粗略判斷對(duì)象被分成多少組,并提供每組數(shù)據(jù)的特征值。在聚類(lèi)分析中,給定的例子可以分為不同的類(lèi)別,同一類(lèi)別中的例子是相關(guān)的,但它們之間并不相關(guān)。聚類(lèi)算法的重要部分是分類(lèi)步驟。在對(duì)給定的例子進(jìn)行分類(lèi)時(shí),需要先選擇一個(gè)樣本作為樣本的中心,然后選擇中心距離,將小于中心距離的例子歸入一個(gè)集合,其余大于中心距離的例子歸入另一個(gè)集合。然后從剩余的樣本中選擇一個(gè)新的中心,重復(fù)上述步驟,不斷形成新的類(lèi)別,直到所有樣本都包含在集合中。
從以上步驟可以看出,聚類(lèi)算法在分類(lèi)中的速度受給定中心距離的影響。如果給定的中心距離較小,類(lèi)別會(huì)相對(duì)增加,從而降低分類(lèi)速度。同樣,在聚類(lèi)算法中,確定實(shí)例被劃分到的類(lèi)別的數(shù)量也是非常重要的。如果分類(lèi)很多,不僅會(huì)花費(fèi)太多的分類(lèi)時(shí)間,還會(huì)失去分類(lèi)的意義。但是,沒(méi)有最佳方法來(lái)確定應(yīng)該劃分多少個(gè)類(lèi)別,只有可以通過(guò)估算來(lái)計(jì)算。聚類(lèi)算法處理的數(shù)據(jù)在同一類(lèi)中非常接近,在不同類(lèi)中差異很大。在聚類(lèi)算法中,數(shù)據(jù)之間的間隔通常用距離來(lái)表示,也就是說(shuō),數(shù)據(jù)之間的任何距離都可以通過(guò)函數(shù)轉(zhuǎn)換成實(shí)數(shù)。通常實(shí)數(shù)越大,距離越遠(yuǎn)。
關(guān)聯(lián)算法分析
關(guān)聯(lián)算法用于表達(dá)兩個(gè)事物之間的關(guān)系或依賴(lài)關(guān)系。事物之間的關(guān)聯(lián)通常有兩種,一種叫相關(guān),一種叫關(guān)聯(lián)。兩者都是用來(lái)表示事物的關(guān)聯(lián)性,但前者通常是用來(lái)表示互聯(lián)網(wǎng)內(nèi)容和文檔的關(guān)聯(lián)性,后者通常是用來(lái)表示電子商務(wù)中各種網(wǎng)站的產(chǎn)品之間的關(guān)系,但兩者并無(wú)本質(zhì)區(qū)別。由于關(guān)聯(lián)算法是用來(lái)表達(dá)兩個(gè)事物之間的關(guān)系或依賴(lài)關(guān)系的,所以需要對(duì)相關(guān)性進(jìn)行定量的度量。這個(gè)概念叫做支撐,即一種商品出現(xiàn)時(shí),另一種商品伴隨出現(xiàn)的概率。
關(guān)聯(lián)算法的數(shù)據(jù)挖掘通常分為兩步。第一步,找到集合中出現(xiàn)頻率高的項(xiàng)目組,作為整個(gè)記錄必須達(dá)到一定的級(jí)別。一般認(rèn)為設(shè)置需要分析實(shí)體之間的支持。如果兩個(gè)實(shí)體之間的支持度大于設(shè)定值,則稱(chēng)為高頻項(xiàng)目組。第二步,用第一步找到的高頻項(xiàng)目組來(lái)確定它們之間的關(guān)系,通常用它們之間的概率來(lái)表示。即計(jì)算A事件發(fā)生時(shí)B事件發(fā)生的概率,公式為(A和B同時(shí)發(fā)生的概率)/(A發(fā)生的概率)。只有當(dāng)比率滿足既定的概率時(shí),才能解釋這兩個(gè)事件有關(guān)聯(lián)。關(guān)聯(lián)分析可以從數(shù)據(jù)庫(kù)中找出現(xiàn)有數(shù)據(jù)之間隱藏的關(guān)系,從而利用這些數(shù)據(jù)獲取潛在的價(jià)值。