大數據平臺:探索數據價值
最近很多廠商都推出了自己的大數據產品。但我們還是要問兩個問題,你怎么定義大數據?你認為大數據平臺關鍵的元素是什么?
廠商和專家一般都會告訴我們最重要的是要記住大數據所包含的東西遠遠多于所謂的大型數據存儲。大數據通常也包含其快速創建和多種格式,像非格式化的文本,Web或者數字媒體等。 正如IBM和Informatica所指出的三方面內容:容量、速率和多樣化。
廠商可以根據自己的功能不斷地描述自己的平臺,但是大多數廠商的領導們,很擅長回答關鍵因素是什么,他們不只是簡單地羅列自己家產品的功能。就算廠商說了一些偏向自己的話,至少我們知道對這個廠商而言什么是最重要的,還有他們的長處在哪里。
對于大數據集成平臺而言,主要關注于數據來源,如何管理和治理。在這一點上應該考慮幾個主要的問題:集成多種源,大數據的處理環境并不是數據的發源地。數據質量和數據管理,如果要用這些數據做分析并制定決策,這些數據就要能夠信任。這一點而言,大數據平臺必須支持數據質量和數據治理。
文本分析和語義分析,要能夠為獲取的數據預設一種環境,就比如,處理無數的源的時候,要能夠確定這個信息是否是你關心的。這也可能意味著我們要集成MDM系統的數據,或者其他企業應用中的數據。再把這的信息放到一種環境中。
支持R語言。分析學中開源技術傾向于使用像R這樣的語言。此外對于分析和設計模式要有一種全新的態度。因為處理非結構化的信息需要這種不同的觀點。
- SQL點滴之幾個有點偏的語句
- SQL Server數據挖掘中的幾個問題之理解內容類型
- SQL Server數據挖掘中的幾個問題之理解列的用法
- SQL Server數據挖掘之理解聚類算法和順序聚類算法
- Big Data技術綜述