常用數據結構及復雜度

作者：Dennis Gao 2014-07-01 15:49:33

在計算機程序設計中，數組（Array）是最簡單的而且應用最廣泛的數據結構之一。在任何編程語言中，數組都有一些共性……

Data Structure	Add	Find	Delete	GetByIndex
Array (T[])	O(n)	O(n)	O(n)	O(1)
Linked list (LinkedList<T>)	O(1)	O(n)	O(n)	O(n)
Resizable array list (List<T>)	O(1)	O(n)	O(n)	O(1)
Stack (Stack<T>)	O(1)	-	O(1)	-
Queue (Queue<T>)	O(1)	-	O(1)	-
Hash table (Dictionary<K,T>)	O(1)	O(1)	O(1)	-
Tree-based dictionary (SortedDictionary<K,T>)	O(log n)	O(log n)	O(log n)	-
Hash table based set (HashSet<T>)	O(1)	O(1)	O(1)	-
Tree based set (SortedSet<T>)	O(log n)	O(log n)	O(log n)	-

如何選擇數據結構

Array (T[])

當元素的數量是固定的，并且需要使用下標時。

Linked list (LinkedList<T>)

當元素需要能夠在列表的兩端添加時。否則使用 List<T>。

Resizable array list (List<T>)

當元素的數量不是固定的，并且需要使用下標時。

Stack (Stack<T>)

當需要實現 LIFO（Last In First Out）時。

Queue (Queue<T>)

當需要實現 FIFO（First In First Out）時。

Hash table (Dictionary<K,T>)

當需要使用鍵值對（Key-Value）來快速添加和查找，并且元素沒有特定的順序時。

Tree-based dictionary (SortedDictionary<K,T>)

當需要使用價值對（Key-Value）來快速添加和查找，并且元素根據 Key 來排序時。

Hash table based set (HashSet<T>)

當需要保存一組唯一的值，并且元素沒有特定順序時。

Tree based set (SortedSet<T>)

當需要保存一組唯一的值，并且元素需要排序時。

Array

在計算機程序設計中，數組（Array）是最簡單的而且應用最廣泛的數據結構之一。在任何編程語言中，數組都有一些共性：

數組中的內容是使用連續的內存（Contiguous Memory）來存儲的。
數組中的所有元素必須是相同的類型，或者類型的衍生類型。因此數組又被認為是同質數據結構（Homegeneous Data Structures）。
數組的元素可以直接被訪問。比如你需要訪問數組的第 i 個元素，則可以直接使用 arrayName[i] 來訪問。

對于數組的常規操作包括：

分配空間（Allocation）
數據訪問（Accessing）

在 C# 中，可以通過如下的方式聲明數組變量。

1 int allocationSize = 10;
2 bool[] booleanArray = new bool[allocationSize];
3 FileInfo[] fileInfoArray = new FileInfo[allocationSize];

上面的代碼將在 CLR 托管堆中分配一塊連續的內存空間，用以容納數量為 allocationSize ，類型為 arrayType 的數組元素。如果 arrayType 為值類型，則將會有 allocationSize 個未封箱（unboxed）的 arrayType 值被創建。如果 arrayType 為引用類型，則將會有 allocationSize 個 arrayType 類型的引用被創建。

如果我們為 FileInfo[] 數組中的一些位置賦上值，則引用關系為下圖所示。

.NET 中的數組都支持對元素的直接讀寫操作。語法如下：

1 // 讀數組元素
2 bool b = booleanArray[7];
3 
4 // 寫數組元素
5 booleanArray[0] = false;

訪問一個數組元素的時間復雜度為 O(1)，因此對數組的訪問時間是恒定的。也就是說，與數組中包含的元素數量沒有直接關系，訪問一個元素的時間是相同的。

#p#

ArrayList

由于數組是固定長度的，并且數組中只能存儲同一種類型或類型的衍生類型。這在使用中會受到一些限制。.NET 提供了一種數據結構 ArrayList 來解決這些問題。

1   ArrayList countDown = new ArrayList();
2   countDown.Add(3);
3   countDown.Add(2);
4   countDown.Add(1);
5   countDown.Add("blast off!");
6   countDown.Add(new ArrayList());

ArrayList 是長度可變的數組，并且它可以存儲不同類型的元素。

但這些靈活性是以犧牲性能為代價的。在上面 Array 的描述中，我們知道 Array 在存儲值類型時是采用未裝箱（unboxed）的方式。由于 ArrayList 的 Add 方法接受 object 類型的參數，導致如果添加值類型的值會發生裝箱（boxing）操作。這在頻繁讀寫 ArrayList 時會產生額外的開銷，導致性能下降。

List<T>

當 .NET 中引入泛型功能后，上面 ArrayList 所帶來的性能代價可以使用泛型來消除。.NET 提供了新的數組類型 List<T>。

泛型允許開發人員在創建數據結構時推遲數據類型的選擇，直到使用時才確定選擇哪種類型。泛型（Generics）的主要優點包括：

類型安全（Type Safety）：使用泛型定義的類型，在使用時僅能使用指定的類型或類型的衍生類型。
性能（Performance）：泛型移除了運行時類型檢測，消除了裝箱和拆箱的開銷。
可重用（Reusability）：泛型打破了數據結構與存儲數據類型之間的緊耦合。這提高了數據結構的可重用性。

List<T> 等同于同質的一維數組（Homogeneous self-redimensioning array）。它像 Array 一樣可以快速的讀取元素，還可以保持長度可變的靈活性。

1       // 創建 int 類型列表
2       List<int> myFavoriteIntegers = new List<int>();
3 
4       // 創建 string 類型列表
5       List<string> friendsNames = new List<string>();

List<T> 內部同樣使用 Array 來實現，但它隱藏了這些實現的復雜性。當創建 List<T> 時無需指定初始長度，當添加元素到 List<T> 中時，也無需關心數組大小的調整（resize）問題。

1   List<int> powersOf2 = new List<int>();
2 
3   powersOf2.Add(1);
4   powersOf2.Add(2);
5 
6   powersOf2[1] = 10;
7 
8   int sum = powersOf2[1] + powersOf2[2];

List<T> 的漸進運行時（Asymptotic Running Time）復雜度與 Array 是相同的。

Queue<T>

當我們需要使用先進先出順序（FIFO）的數據結構時，.NET 為我們提供了 Queue<T>。Queue<T> 類提供了 Enqueue 和 Dequeue 方法來實現對 Queue<T> 的存取。

Queue<T> 內部建立了一個存放 T 對象的環形數組，并通過 head 和 tail 變量來指向該數組的頭和尾。

默認情況下，Queue<T> 的初始化容量是 32，也可以通過構造函數指定容量。

Enqueue 方法會判斷 Queue<T> 中是否有足夠容量存放新元素。如果有，則直接添加元素，并使索引 tail 遞增。在這里的 tail 使用求模操作以保證 tail 不會超過數組長度。如果容量不夠，則 Queue<T> 根據特定的增長因子擴充數組容量。

默認情況下，增長因子（growth factor）的值為 2.0，所以內部數組的長度會增加一倍。也可以通過構造函數中指定增長因子。Queue<T> 的容量也可以通過 TrimExcess 方法來減少。

Dequeue 方法根據 head 索引返回當前元素，之后將 head 索引指向 null，再遞增 head 的值。

#p#

Stack<T>

當需要使用后進先出順序（LIFO）的數據結構時，.NET 為我們提供了 Stack<T>。Stack<T> 類提供了 Push 和 Pop 方法來實現對 Stack<T> 的存取。

Stack<T> 中存儲的元素可以通過一個垂直的集合來形象的表示。當新的元素壓入棧中（Push）時，新元素被放到所有其他元素的頂端。當需要彈出棧（Pop）時，元素則被從頂端移除。

[[115374]]

Stack<T> 的默認容量是 10。和 Queue<T> 類似，Stack<T> 的初始容量也可以在構造函數中指定。Stack<T> 的容量可以根據實際的使用自動的擴展，并且可以通過 TrimExcess 方法來減少容量。

如果 Stack<T> 中元素的數量 Count 小于其容量，則 Push 操作的復雜度為 O(1)。如果容量需要被擴展，則 Push 操作的復雜度變為 O(n)。Pop 操作的復雜度始終為 O(1)。

Hashtable

現在我們要使用員工的社保號作為唯一標識進行存儲。社保號的格式為 DDD-DD-DDDD（D 的范圍為數字 0-9）。

如果使用 Array 存儲員工信息，要查詢社保號為 111-22-3333 的員工，則將會嘗試遍歷數組的所有選擇，即執行復雜度為 O(n) 的查詢操作。好一些的辦法是將社保號排序，以使查詢復雜度降低到 O(log(n))。但理想情況下，我們更希望查詢復雜度為 O(1)。

一種方案是建立一個大數組，范圍從 000-00-0000 到 999-99-9999 。

這種方案的缺點是浪費空間。如果我們僅需要存儲 1000 個員工的信息，那么僅利用了 0.0001% 的空間。

第二種方案就是用哈希函數（Hash Function）壓縮序列。

我們選擇使用社保號的后四位作為索引，以減少區間的跨度。這樣范圍將從 0000 到 9999。

在數學上，將這種從 9 位數轉換為 4 位數的方式稱為哈希轉換（Hashing）。可以將一個數組的索引空間（indexers space）壓縮至相應的哈希表（Hash Table）。

在上面的例子中，哈希函數的輸入為 9 位數的社保號，輸出結果為后 4 位。

H(x) = last four digits of x

上圖中也說明在哈希函數計算中常見的一種行為：哈希沖突（Hash Collisions）。即有可能兩個社保號的后 4 位均為 0000。

當要添加新元素到 Hashtable 中時，哈希沖突是導致操作被破壞的一個因素。如果沒有沖突發生，則元素被成功插入。如果發生了沖突，則需要判斷沖突的原因。因此，哈希沖突提高了操作的代價，Hashtable 的設計目標就是要盡可能減低沖突的發生。

避免哈希沖突的一個方法就是選擇合適的哈希函數。哈希函數中的沖突發生的幾率與數據的分布有關。例如，如果社保號的后 4 位是隨即分布的，則使用后 4 位數字比較合適。但如果后 4 位是以員工的出生年份來分配的，則顯然出生年份不是均勻分布的，則選擇后 4 位會造成大量的沖突。

我們將選擇合適的哈希函數的方法稱為沖突避免機制（Collision Avoidance）。

在處理沖突時，有很多策略可以實施，這些策略稱為沖突解決機制（Collision Resolution）。其中一種方法就是將要插入的元素放到另外一個塊空間中，因為相同的哈希位置已經被占用。

例如，最簡單的一種實現就是線性挖掘（Linear Probing），步驟如下：

當插入新的元素時，使用哈希函數在哈希表中定位元素位置；
檢查哈希表中該位置是否已經存在元素。如果該位置內容為空，則插入并返回，否則轉向步驟 3。
如果該位置為 i，則檢查 i+1 是否為空，如果已被占用，則檢查 i+2，依此類推，直到找到一個內容為空的位置。

現在如果我們要將五個員工的信息插入到哈希表中：

Alice (333-33-1234)
Bob (444-44-1234)
Cal (555-55-1237)
Danny (000-00-1235)
Edward (111-00-1235)

則插入后的哈希表可能如下：

元素的插入過程：

Alice 的社保號被哈希為 1234，因此存放在位置 1234。
Bob 的社保號被哈希為 1234，但由于位置 1234 處已經存放 Alice 的信息，則檢查下一個位置 1235，1235 為空，則 Bob 的信息就被放到 1235。
Cal 的社保號被哈希為 1237，1237 位置為空，所以 Cal 就放到 1237 處。
Danny 的社保號被哈希為 1235，1235 已被占用，則檢查 1236 位置是否為空，1236 為空，所以 Danny 就被放到 1236。
Edward 的社保號被哈希為 1235，1235 已被占用，檢查1236，也被占用，再檢查1237，直到檢查到 1238時，該位置為空，于是 Edward 被放到了1238 位置。

線性挖掘（Linear Probing）方式雖然簡單，但并不是解決沖突的最好的策略，因為它會導致同類哈希的聚集。這導致搜索哈希表時，沖突依然存在。例如上面例子中的哈希表，如果我們要訪問 Edward 的信息，因為 Edward 的社保號 111-00-1235 哈希為 1235，然而我們在 1235 位置找到的是 Bob，所以再搜索 1236，找到的卻是 Danny，以此類推直到找到 Edward。

#p#

一種改進的方式為二次挖掘（Quadratic Probing），即每次檢查位置空間的步長為平方倍數。也就是說，如果位置 s 被占用，則首先檢查 s + 1² 處，然后檢查s - 1²，s + 2²，s - 2²，s + 3² 依此類推，而不是象線性挖掘那樣以 s + 1，s + 2 ... 方式增長。盡管如此，二次挖掘同樣也會導致同類哈希聚集問題。

.NET 中的 Hashtable 的實現，要求添加元素時不僅要提供元素（Item），還要為該元素提供一個鍵（Key）。例如，Key 為員工社保號，Item 為員工信息對象。可以通過 Key 作為索引來查找 Item。

 1       Hashtable employees = new Hashtable();
 2 
 3       // Add some values to the Hashtable, indexed by a string key
 4       employees.Add("111-22-3333", "Scott");
 5       employees.Add("222-33-4444", "Sam");
 6       employees.Add("333-44-55555", "Jisun");
 7 
 8       // Access a particular key
 9       if (employees.ContainsKey("111-22-3333"))
10       {
11         string empName = (string)employees["111-22-3333"];
12         Console.WriteLine("Employee 111-22-3333's name is: " + empName);
13       }
14       else
15         Console.WriteLine("Employee 111-22-3333 is not in the hash table...");

Hashtable 類中的哈希函數比前面介紹的社保號的實現要更為復雜。哈希函數必須返回一個序數（Ordinal Value）。對于社保號的例子，通過截取后四位就可以實現。但實際上 Hashtable 類可以接受任意類型的值作為 Key，這都要歸功于 GetHashCode 方法，一個定義在 System.Object 中的方法。GetHashCode 的默認實現將返回一個唯一的整數，并且保證在對象的生命周期內保持不變。

Hashtable 類中的哈希函數定義如下：

H(key) = [GetHash(key) + 1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1))] % hashsize

這里的 GetHash(key) 默認是調用 key 的 GetHashCode 方法以獲取返回的哈希值。hashsize 指的是哈希表的長度。因為要進行求模，所以最后的結果 H(key) 的范圍在 0 至 hashsize - 1 之間。

當在哈希表中添加或獲取一個元素時，會發生哈希沖突。前面我們簡單地介紹了兩種沖突解決策略：

線性挖掘（Linear Probing）
二次挖掘（Quadratic Probing）

在 Hashtable 類中則使用的是一種完全不同的技術，稱為二度哈希（rehashing）（有些資料中也將其稱為雙精度哈希（double hashing））。

二度哈希的工作原理如下：

有一個包含一組哈希函數 H1...Hn 的集合。當需要從哈希表中添加或獲取元素時，首先使用哈希函數 H1。如果導致沖突，則嘗試使用 H2，以此類推，直到 Hn。所有的哈希函數都與 H1 十分相似，不同的是它們選用的乘法因子（multiplicative factor）。

通常，哈希函數 Hk 的定義如下：

Hk(key) = [GetHash(key) + k * (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1)))] % hashsize

當使用二度哈希時，重要的是在執行了 hashsize 次挖掘后，哈希表中的每一個位置都有且只有一次被訪問到。也就是說，對于給定的 key，對哈希表中的同一位置不會同時使用 Hi 和 Hj。在 Hashtable 類中使用二度哈希公式，其始終保持 (1 + (((GetHash(key) >> 5) + 1) % (hashsize – 1)) 與 hashsize 互為素數（兩數互為素數表示兩者沒有共同的質因子）。

二度哈希較前面介紹的線性挖掘（Linear Probing）和二次挖掘（Quadratic Probing）提供了更好的避免沖突的策略。

Hashtable 類中包含一個私有成員變量 loadFactor，loadFactor 指定了哈希表中元素數量與位置（slot）數量之間的最大比例。例如：如果 loadFactor 等于 0.5，則說明哈希表中只有一半的空間存放了元素值，其余一半都為空。

哈希表的構造函數允許用戶指定 loadFactor 值，定義范圍為 0.1 到 1.0。然而，不管你提供的值是多少，范圍都不會超過 72%。即使你傳遞的值為 1.0，Hashtable 類的 loadFactor 值還是 0.72。微軟認為loadFactor 的最佳值為 0.72，這平衡了速度與空間。因此雖然默認的 loadFactor 為 1.0，但系統內部卻自動地將其改變為 0.72。所以，建議你使用缺省值1.0（但實際上是 0.72）。

向 Hashtable 中添加新元素時，需要檢查以保證元素與空間大小的比例不會超過最大比例。如果超過了，哈希表空間將被擴充。步驟如下：

哈希表的位置空間幾乎被翻倍。準確地說，位置空間值從當前的素數值增加到下一個最大的素數值。
因為二度哈希時，哈希表中的所有元素值將依賴于哈希表的位置空間值，所以表中所有值也需要重新二度哈希。

由此看出，對哈希表的擴充將是以性能損耗為代價。因此，我們應該預先估計哈希表中最有可能容納的元素數量，在初始化哈希表時給予合適的值進行構造，以避免不必要的擴充。

Dictionary<K,T>

Hashtable 類是一個類型松耦合的數據結構，開發人員可以指定任意的類型作為 Key 或 Item。當 .NET 引入泛型支持后，類型安全的 Dictionary<K,T> 類出現。Dictionary<K,T> 使用強類型來限制 Key 和 Item，當創建 Dictionary<K,T> 實例時，必須指定 Key 和 Item 的類型。

Dictionary<keyType, valueType> variableName = new Dictionary<keyType, valueType>();

如果繼續使用上面描述的社保號和員工的示例，我們可以創建一個 Dictionary<K,T> 的實例：

Dictionary<int, Employee> employeeData = new Dictionary<int, Employee>();

這樣我們就可以添加和刪除員工信息了。

1 // Add some employees
2 employeeData.Add(455110189) = new Employee("Scott Mitchell");
3 employeeData.Add(455110191) = new Employee("Jisun Lee");
4 
5 // See if employee with SSN 123-45-6789 works here
6 if (employeeData.ContainsKey(123456789))

Dictionary<K,T> 與 Hashtable 的不同之處還不止一處。除了支持強類型外，Dictionary<K,T> 還采用了不同的沖突解決策略（Collision Resolution Strategy），這種新的技術稱為鏈技術（chaining）。

前面使用的挖掘技術（probing），如果發生沖突，則將嘗試列表中的下一個位置。如果使用二度哈希（rehashing），則將導致所有的哈希被重新計算。而新的鏈技術（chaining）將采用額外的數據結構來處理沖突。Dictionary<K,T> 中的每個位置（slot）都映射到了一個數組。當沖突發生時，沖突的元素將被添加到桶（bucket）列表中。

下面的示意圖中描述了 Dictionary<K,T> 中的每個桶（bucket）都包含了一個鏈表以存儲相同哈希的元素。

[[115375]]

上圖中，該 Dictionary 包含了 8 個桶，也就是自頂向下的黃色背景的位置。一定數量的 Employee 對象已經被添加至 Dictionary 中。如果一個新的 Employee 要被添加至 Dictionary 中，將會被添加至其 Key 的哈希所對應的桶中。如果在相同位置已經有一個 Employee 存在了，則將會將新元素添加到列表的前面。

向 Dictionary 中添加元素的操作涉及到哈希計算和鏈表操作，但其仍為常量，復雜度為 O(1)。

對 Dictionary 進行查詢和刪除操作時，其平均時間取決于 Dictionary 中元素的數量和桶（bucket）的數量。具體的說就是運行時間為 O(n/m)，這里 n 為元素的總數量，m 是桶的數量。但 Dictionary 幾乎總是被實現為 n = m，也就是說，元素的總數絕不會超過桶的總數。所以 O(n/m) 也變成了常量 O(1)。

參考資料

An Extensive Examination of Data Structures Using C# 2.0 : Part 1: An Introduction to Data Structures
An Extensive Examination of Data Structures Using C# 2.0 : Part 2: The Queue, Stack, and Hashtable
考察數據結構——第一部分：數據結構簡介[譯]
考察數據結構——第二部分：隊列、堆棧和哈希表[譯]

本文出自：http://www.cnblogs.com/gaochundong/p/data_structures_and_asymptotic_analysis.html

責任編輯：林師授來源： Scale-out Thinking

數據結構

成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

常用數據結構及復雜度