大數據分析，必備的30個知識點

作者：精彩1day1night 2019-07-10 15:46:05

大數據新聞

下面是一些關于大數據挖掘的知識點，今天和大家一起來學習一下。

[[270262]]

1. 數據、信息和知識是廣義數據表現的不同形式。

2. 主要知識模式類型有：廣義知識，關聯知識，類知識，預測型知識，特異型知識

3. web挖掘研究的主要流派有：Web結構挖掘、Web使用挖掘、Web內容挖掘

4. 一般地說，KDD是一個多步驟的處理過程，一般分為問題定義、數據抽取、數據預處理，數據挖掘以及模式評估等基本階段。

5. 數據庫中的知識發現處理過程模型有：階梯處理過程模型，螺旋處理過程模型，以用戶為中心的處理結構模型，聯機KDD模型，支持多數據源多知識模式的KDD處理模型。

6. 粗略地說，知識發現軟件或工具的發展經歷了獨立的知識發現軟件、橫向的知識發現工具集和縱向的知識發現解決方案三個主要階段，其中后面兩種反映了目前知識發現軟件的兩個主要發展方向。

7. 決策樹分類模型的建立通常分為兩個步驟：決策樹生成，決策樹修剪。

8. 從使用的主要技術上看，可以把分類方法歸結為四種類型：

基于距離的分類方法
決策樹分類方法
貝葉斯分類方法
規則歸納方法

9. 關聯規則挖掘問題可以劃分成兩個子問題：

發現頻繁項目集:通過用戶給定Minsupport ，尋找所有頻繁項目集或者***頻繁項目集。
生成關聯規則:通過用戶給定Minconfidence ，在頻繁項目集中，尋找關聯規則。

10. 數據挖掘是相關學科充分發展的基礎上被提出和發展的，主要的相關技術：

數據庫等信息技術的發展
統計學深入應用
人工智能技術的研究和應用

11. 衡量關聯規則挖掘結果的有效性，應該從多種綜合角度來考慮：

準確性：挖掘出的規則必須反映數據的實際情況。
實用性：挖掘出的規則必須是簡潔可用的。
新穎性：挖掘出的關聯規則可以為用戶提供新的有價值信息。

12. 約束的常見類型有：

單調性約束;
反單調性約束;
可轉變的約束;
簡潔性約束.

13. 根據規則中涉及到的層次，多層次關聯規則可以分為：

同層關聯規則：如果一個關聯規則對應的項目是同一個粒度層次，那么它是同層關聯規則。
層間關聯規則：如果在不同的粒度層次上考慮問題，那么可能得到的是層間關聯規則。

14. 按照聚類分析算法的主要思路，聚類方法可以被歸納為如下幾種。

劃分法：基于一定標準構建數據的劃分。
屬于該類的聚類方法有：k-means、k-modes、k-prototypes、k-medoids、PAM、CLARA、CLARANS等。
層次法：對給定數據對象集合進行層次的分解。
密度法：基于數據對象的相連密度評價。
網格法：將數據空間劃分成為有限個單元(Cell)的網格結構，基于網格結構進行聚類。
模型法：給每一個簇假定一個模型，然后去尋找能夠很好的滿足這個模型的數據集。

15. 類間距離的度量主要有：

最短距離法：定義兩個類中最靠近的兩個元素間的距離為類間距離。
最長距離法：定義兩個類中最遠的兩個元素間的距離為類間距離。
中心法：定義兩類的兩個中心間的距離為類間距離。
類平均法：它計算兩個類中任意兩個元素間的距離，并且綜合他們為類間距離：離差平方和。

16. 層次聚類方法具體可分為：

凝聚的層次聚類：一種自底向上的策略，首先將每個對象作為一個簇，然后合并這些原子簇為越來越大的簇，直到某個終結條件被滿足。
分裂的層次聚類：采用自頂向下的策略，它首先將所有對象置于一個簇中，然后逐漸細分為越來越小的簇，直到達到了某個終結條件。
層次凝聚的代表是AGNES算法。層次分裂的代表是DIANA算法。

17. 文本挖掘(TD)的方式和目標是多種多樣的，基本層次有：

關鍵詞檢索：最簡單的方式，它和傳統的搜索技術類似。
挖掘項目關聯：聚焦在頁面的信息(包括關鍵詞)之間的關聯信息挖掘上。
信息分類和聚類：利用數據挖掘的分類和聚類技術實現頁面的分類，將頁面在一個更到層次上進行抽象和整理。
自然語言處理：揭示自然語言處理技術中的語義，實現Web內容的更精確處理。

18. 在web訪問挖掘中常用的技術：

路徑分析：路徑分析最常用的應用是用于判定在一個Web站點中最頻繁訪問的路徑，這樣的知識對于一個電子商務網站或者信息安全評估是非常重要的。
關聯規則發現：使用關聯規則發現方法可以從Web訪問事務集中，找到一般性的關聯知識。
序列模式發現：在時間戳有序的事務集中，序列模式的發現就是指找到那些如“一些項跟隨另一個項”這樣的內部事務模式。
分類：發現分類規則可以給出識別一個特殊群體的公共屬性的描述。這種描述可以用于分類新的項。
聚類：可以從Web Usage數據中聚集出具有相似特性的那些客戶。在Web事務日志中，聚類顧客信息或數據項，就能夠便于開發和執行未來的市場戰略。

19. 根據功能和側重點不同，數據挖掘語言可以分為三種類型：

數據挖掘查詢語言：希望以一種像SQL這樣的數據庫查詢語言完成數據挖掘的任務。
數據挖掘建模語言：對數據挖掘模型進行描述和定義的語言，設計一種標準的數據挖掘建模語言，使得數據挖掘系統在模型定義和描述方面有標準可以遵循。
通用數據挖掘語言：通用數據挖掘語言合并了上述兩種語言的特點，既具有定義模型的功能，又能作為查詢語言與數據挖掘系統通信，進行交互式挖掘。通用數據挖掘語言標準化是目前解決數據挖掘行業出現問題的頗具吸引力的研究方向。

20. 規則歸納有四種策略：減法、加法，先加后減、先減后加策略。

減法策略：以具體例子為出發點，對例子進行推廣或泛化，推廣即減除條件(屬性值)或減除合取項(為了方便，我們不考慮增加析取項的推廣)，使推廣后的例子或規則不覆蓋任何反例。
加法策略：起始假設規則的條件部分為空(永真規則)，如果該規則覆蓋了反例，則不停地向規則增加條件或合取項，直到該規則不再覆蓋反例。
先加后減策略：由于屬性間存在相關性，因此可能某個條件的加入會導致前面加入的條件沒什么作用，因此需要減除前面的條件。
先減后加策略：道理同先加后減，也是為了處理屬性間的相關性。

21. 數據挖掘定義有廣義和狹義之分。

從廣義的觀點，數據挖掘是從大型數據集(可能是不完全的、有噪聲的、不確定性的、各種存儲形式的)中，挖掘隱含在其中的、人們事先不知道的、對決策有用的知識的過程。
從這種狹義的觀點上，我們可以定義數據挖掘是從特定形式的數據集中提煉知識的過程。

22. web挖掘的含義： 針對包括Web頁面內容、頁面之間的結構、用戶訪問信息、電子商務信息等在內的各種Web數據，應用數據挖掘方法以幫助人們從因特網中提取知識，為訪問者、站點經營者以及包括電子商務在內的基于因特網的商務活動提供決策支持。

23. K-近鄰分類算法(K Nearest Neighbors，簡稱KNN)的定義：通過計算每個訓練數據到待分類元組的距離，取和待分類元組距離最近的K個訓練數據，K個數據中哪個類別的訓練數據占多數，則待分類元組就屬于哪個類別。

24. K-means算法的性能分析：

主要優點：是解決聚類問題的一種經典算法，簡單、快速;對處理大數據集，該算法是相對可伸縮和高效率的;當結果簇是密集的，它的效果較好。

主要缺點：在簇的平均值被定義的情況下才能使用，可能不適用于某些應用;必須事先給出k(要生成的簇的數目)，而且對初值敏感，對于不同的初始值，可能會導致不同結果;不適合于發現非凸面形狀的簇或者大小差別很大的簇。而且，它對于“躁聲”和孤立點數據是敏感的。

25. ID3算法的性能分析：

ID3算法的假設空間包含所有的決策樹，它是關于現有屬性的有限離散值函數的一個完整空間。所以ID3算法避免了搜索不完整假設空間的一個主要風險：假設空間可能不包含目標函數。
ID3算法在搜索的每一步都使用當前的所有訓練樣例，大大降低了對個別訓練樣例錯誤的敏感性。因此，通過修改終止準則，可以容易地擴展到處理含有噪聲的訓練數據。
ID3算法在搜索過程中不進行回溯。所以，它易受無回溯的爬山搜索中的常見風險影響：收斂到局部***而不是全局***。

26. Apriori算法有兩個致命的性能瓶頸:

多次掃描事務數據庫，需要很大的I/O負載
對每次k循環，侯選集Ck中的每個元素都必須通過掃描數據庫一次來驗證其是否加入Lk。假如有一個頻繁大項目集包含10個項的話，那么就至少需要掃描事務數據庫10遍。
可能產生龐大的侯選集
由Lk-1產生k-侯選集Ck是指數增長的，例如104個1-頻繁項目集就有可能產生接近107個元素的2-侯選集。如此大的侯選集對時間和主存空間都是一種挑戰。a基于數據分割的方法：基本原理是“在一個劃分中的支持度小于最小支持度的k-項集不可能是全局頻繁的”。

27. 改善Apriori算法適應性和效率的主要的改進方法有：

基于數據分割(Partition)的方法：基本原理是“在一個劃分中的支持度小于最小支持度的k-項集不可能是全局頻繁的”。
基于散列的方法：基本原理是“在一個hash桶內支持度小于最小支持度的k-項集不可能是全局頻繁的”。
基于采樣的方法：基本原理是“通過采樣技術，評估被采樣的子集中，并依次來估計k-項集的全局頻度”。
其他：如，動態刪除沒有用的事務：“不包含任何Lk的事務對未來的掃描結果不會產生影響，因而可以刪除”。

28. 面向Web的數據挖掘比面向數據庫和數據倉庫的數據挖掘要復雜得多：

異構數據源環境：Web網站上的信息是異構: 每個站點的信息和組織都不一樣;存在大量的無結構的文本信息、復雜的多媒體信息;站點使用和安全性、私密性要求各異等等。
數據的是復雜性：有些是無結構的(如Web頁)，通常都是用長的句子或短語來表達文檔類信息;有些可能是半結構的(如Email，HTML頁)。當然有些具有很好的結構(如電子表格)。揭開這些復合對象蘊涵的一般性描述特征成為數據挖掘的不可推卸的責任。
動態變化的應用環境：
Web的信息是頻繁變化的，像新聞、股票等信息是實時更新的。
這種高變化也體現在頁面的動態鏈接和隨機存取上。
Web上的用戶是難以預測的。
Web上的數據環境是高噪音的。

29. 簡述知識發現項目的過程化管理I-MIN過程模型。

MIN過程模型把KDD過程分成IM1、IM2、…、IM6等步驟處理，在每個步驟里，集中討論幾個問題，并按一定的質量標準來控制項目的實施。
IM1任務與目的：它是KDD項目的計劃階段，確定企業的挖掘目標，選擇知識發現模式，編譯知識發現模式得到的元數據;其目的是將企業的挖掘目標嵌入到對應的知識模式中。
IM2任務與目的：它是KDD的預處理階段，可以用IM2a、IM2b、IM2c等分別對應于數據清洗、數據選擇和數據轉換等階段。其目的是生成高質量的目標數據。
IM3任務與目的：它是KDD的挖掘準備階段，數據挖掘工程師進行挖掘實驗，反復測試和驗證模型的有效性。其目的是通過實驗和訓練得到濃縮知識(Knowledge Concentrate)，為最終用戶提供可使用的模型。
IM4任務與目的：它是KDD的數據挖掘階段，用戶通過指定數據挖掘算法得到對應的知識。
IM5任務與目的：它是KDD的知識表示階段，按指定要求形成規格化的知識。
IM6任務與目的：它是KDD的知識解釋與使用階段，其目的是根據用戶要求直觀地輸出知識或集成到企業的知識庫中。

30. 改善Apriori算法適應性和效率的主要的改進方法有：

基于數據分割(Partition)的方法：基本原理是“在一個劃分中的支持度小于最小支持度的k-項集不可能是全局頻繁的”。
基于散列(Hash)的方法：基本原理是“在一個hash桶內支持度小于最小支持度的k-項集不可能是全局頻繁的”。
基于采樣(Sampling)的方法：基本原理是“通過采樣技術，評估被采樣的子集中，并依次來估計k-項集的全局頻度”。
其他：如，動態刪除沒有用的事務：“不包含任何Lk的事務對未來的掃描結果不會產生影響，因而可以刪除”。

責任編輯：華軒來源：今日頭條

大數據數據庫信息安全

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

大數據分析，必備的30個知識點