基本數據分析方法

欄目: 科普知識 / 發佈於: / 人氣:1.48W

數據分析方法是通過什麼方法去組合數據從而展現規律的環節，那麼基本數據分析方法有那些？

　　基本數據分析方法

1、常規分析方法

常規分析方法不對數據做抽象的處理，主要是直接呈現原始數據，多用於針對固定的指標、且週期性的分析主題。直接通過原始數據來呈現業務意義，主要是通過趨勢分析和佔比分析來呈現，其分析方法對應同環比及帕累託分析這兩類。同環比分析，其核心目的在於呈現本期與往期之間的差異，如銷售量增長趨勢；而帕累託分析則是呈現單一維度中的各個要素佔比的排名，比如各個地市中本期的銷售量增長趨勢的排名，以及前百分之八十的增長量都由哪幾個地市貢獻這樣的結論。常規分析方法已經成為最為基礎的分析方法，在此也不詳細介紹了。

2、統計學分析方法

統計學分析方法能夠基於以往數據的規律來推導未來的趨勢，其中可以分為多種規律總結的方式。根據原理多分為以下幾大類，包括有目標結論的有指導學習算法，和沒有目標結論的無指導學習算法，以及迴歸分析。

其中有指導的學習算法簡單説就是有歷史數據裏邊已經給出一個目標結論，然後分析當各個變量達到什麼情況時，就會產生目標結論。比如我們想判斷各項指標需要達到什麼水平時我們才認定這個人患有心臟病的話，就可以把大量的心臟病人的各項指標數據和沒有心臟病的正常人的各項指標數據都輸入到系統中，目標結論就是是否有心臟病，變量就是各項指標數據，系統根據這些數據算出一個函數，這個函數能夠恰當的描述各個指標的數據與最終這個是否是心臟病人之間的關係，也就是當各個指標達到什麼臨界值時，這個人就有心臟病的判斷，這樣以後再來病人，我們就可以根據各項指標的臨界值。這個案例中的函數就是算法本身了，這其中的算法邏輯有很多種，包括常見的貝葉斯分類、決策樹、隨機森林樹以及支持向量機等，有興趣的朋友可以在網上看看各種算法的邏輯是怎麼樣的。

另外無指導的學習算法因為沒有一個給定的目標結論，因此是將指標之中所有有類似屬性的數據分別合併在一起，形成聚類的結果。比如最經典的啤酒與尿布分析，業務人員希望瞭解啤酒跟什麼搭配在一起賣會更容易讓大家接受，因此需要把所有的購買數據都放進來，然後計算後，得出其他各個商品與啤酒的關聯程度或者是距離遠近，也就是同時購買了啤酒的人羣中，都有購買哪些其他的商品，然後會輸出多種結果，比如尿布或者牛肉或者酸奶或者花生米等等，這每個商品都可以成為一個聚類結果，由於沒有目標結論，因此這些聚類結果都可以參考，之後就是貨品擺放人員嘗試各種聚類結果來看效果提升程度。在這個案例中各個商品與啤酒的'關聯程度或者是距離遠近就是算法本身了，這其中的邏輯也有很多中，包括Apriori等關聯規則、聚類算法等。

另外還有一大類是迴歸分析，簡單説就是幾個自變量加減乘除後就能得出因變量來，這樣就可以推算未來因變量會是多少了。比如我們想知道活動覆蓋率、產品價格、客户薪資水平、客户活躍度等指標與購買量是否有關係，以及如果有關係，那麼能不能給出一個等式來，把這幾個指標的數據輸入進去後，就能夠得到購買量，這個時候就需要回歸分析了，通過把這些指標以及購買量輸入系統，運算後即可分別得出，這些指標對購買量有沒有作用，以及如果有作用，那麼各個指標應該如何計算才能得出購買量來。迴歸分析包括線性及非線性迴歸分析等算法。

統計學分析方法還有很多，不過在今天多用上述幾大類分析方法，另外在各個分析方法中，又有很多的不同算法，這部分也是需要分析人員去多多掌握的。

3、自建模型

自建模型是在分析方法中最為高階也是最具有挖掘價值的，在今天多用於金融領域，甚至業界專門為這個人羣起了一個名字叫做寬客，這羣人就是靠數學模型來分析金融市場。由於統計學分析方法所使用的算法也是具有侷限性的，雖然統計學分析方法能夠通用在各種場景中，但是它存在不精準的問題，在有指導和沒有指導的學習算法中，得出的結論多為含有多體現在結論不精準上，而在金融這種錙銖必較的領域中，這種算法顯然不能達到需求的精準度，因此數學家在這個領域中專門自建模型，來輸入可以獲得數據，得出投資建議來。在統計學分析方法中，迴歸分析最接近於數學模型的，但公式的複雜程度有限，而數學模型是完全自由的，能夠將指標進行任意的組合，確保最終結論的有效性。

Tags：數據分析