大數據分析與應用問題研究

欄目: 科普知識 / 發佈於: / 人氣:2.48W

大數據具有規模大、種類多、生成速度快、價值巨大但密度低的特點。大數據應用就是利用數據分析的方法，從大數據中挖掘有效信息，為用户提供輔助決策，實現大數據價值的過程。以下是“大數據分析與應用問題研究”，希望給大家帶來幫助！

1.大數據的定義

美國國家標準和技術研究院對大數據做出了定義：“大數據是指其數據量、採集速度，或數據表示限制了使用傳統關係型方法進行有效分析的能力，或需要使用重要的水平縮放技術來實現高效處理的數據。”我們認為大數據價值鏈可分為：數據生成、數據採集、數據儲存以及數據分析。數據分析是大數據價值鏈的最後也是最重要的階段，是大數據價值的實現，是大數據應用的基礎，其目的在於提取有用的值，提供論斷建議或支持決策，通過對不同領域數據集的分析可能會產生不同級別的潛在價值。

雖然這些傳統的分析方法已經被應用於大數據領域，但是它們在處理規模較大的數據集合時，效率無法達到用户預期，且難以處理複雜的數據，如非結構化數據。因此，出現了許多專門針對大數據的集成、管理及分析的技術和方法。

2.大數據分析方法

布隆過濾器：其實質是一個位數組和一系列HASH函數。布隆過濾器的原理是利用位數組存儲數據的HASH值而不是數據本身，其本質是利用HASH函數對數據進行有損壓縮存儲的位圖索引。其優點是具有較高的空間效率和查詢速率，缺點是有一定的誤識別率和刪除困難。布隆過濾器適用於允許低誤識別率的大數據場合。

HASH法，其本質是將數據轉化為長度更短的定長的數值或索引值的'方法。這種方法的優點是具有快速的讀寫和查詢速度，缺點是難以找到一個良好的HASH函數。

索引：無論是在管理結構化數據的傳統關係數據庫，還是管理半結構化和非結構化數據的技術中，索引都是一個減少磁盤讀寫開銷、提高增刪改查速率的有效方法。索引的缺陷在於需要額外的開銷存儲索引文件，且需要根據數據的更新而動態維護。

TRIE樹：又稱為字典樹，是HASH樹的變種形式，多被用於快速檢索，和詞頻統計。TRIE樹的思想是利用字符串的公共前綴，最大限度地減少字符串的比較，提高查詢效率。

並行計算：相對於傳統的串行計算，並行計算是指同時使用多個計算資源完成運算。其基本思想是將問題進行分解，由若干個獨立的處理器完成各自的任務，以達到協同處理的目的。

傳統數據分析方法，大多數都是通過對原始數據集進行抽樣或者過濾，然後對數據樣本進行分析，尋找特徵和規律，其最大的特點是通過複雜的算法從有限的樣本空間中獲取儘可能多的信息。隨着計算能力和存儲能力的提升，大數據分析方法與傳統分析方法的最大區別在於分析的對象是全體數據，而不是數據樣本，其最大的特點在於不追求算法的複雜性和精確性，而追求可以高效地對整個數據集的分析。總之，傳統數據方法力求通過複雜算法從有限的數據集中獲取信息，其更加追求準確性；大數據分析方法則是通過高效的算法、模式，對全體數據進行分析。

3.結束語

大數據引發思維變革。在大數據時代，數據的收集、獲取和分析都更加快捷，這些海量的數據將對我們的思考方式產生深遠的影響。分析數據時要儘可能地利用所有數據，而不只是分析少量的樣本數據。相比於精確的數據，我們更樂於接受紛繁複雜的數據。我們應該更為關注事物之間的相關關係，而不是探索因果關係。大數據的簡單算法比小數據的複雜算法更為有效。大數據的分析結果將減少決策中的草率和主觀因素，數據科學家將取代“專家”。 [科]

Tags：數據分析