學會了 CopyOnWriteArrayList 可以再多和面試官對線三分鐘

作者： Captain 2021-12-10 06:52:24

開發前端

ArrayList是大家用的再熟悉不過的集合了，而此集合設計之初也是為了高效率，并未考慮多線程場景下，所以也就有了多線程下的CopyOnWriteArrayList這一集合

[[439753]]

ArrayList是大家用的再熟悉不過的集合了，而此集合設計之初也是為了高效率，并未考慮多線程場景下，所以也就有了多線程下的CopyOnWriteArrayList這一集合。

回憶下ArrayList

集合的fail-fast機制和fail-safe機制：

fail-fast快速失敗機制，一個線程A在用迭代器遍歷集合時，另個線程B這時對集合修改會導致A快速失敗，拋出ConcurrentModificationException 異常。在java.util中的集合類都是快速失敗的。
fail-safe安全失敗機制，遍歷時不在原集合上，而是先復制一個集合，在拷貝的集合上進行遍歷。在java.util.concurrent包下的容器類是安全失敗的，建議在并發環境下使用這個包下的集合類。

ArrayList定義：

public class ArrayList extends AbstractList 
 
implements List, RandomAccess, Cloneable, java.io.Serializable { }

ArrayList簡介：

ArrayList是實現List接口的可變數組，并允許null在內的重復元素
底層數組實現，擴容時將老數組元素拷貝到新數組中，每次擴容是其容量的1.5倍，操作代價高
采用了Fail-Fast機制，面對并發的修改時，迭代器很快就會完全失敗，而不是冒著在將來某個不確定時間發生任意不確定行為的風險
ArrayList是線程不安全的，所以在單線程中才使用ArrayList，而在多線程中可以選擇Vector或者CopyOnWriteArrayList

重點關注問題：

ArrayList默認大小(為什么是這個?)，擴容機制?

ArrayList的默認初始化大小是10(在新建的時候還是空，只有當放入第一個元素的時候才會變成10)，若知道ArrayList的大致容量，可以在初始化的時候指定大小，可以在適當程度減少擴容的性能消耗(看下一個問題解析)。

至于為何是10

據說是因為sun的程序員對一系列廣泛使用的程序代碼進行了調研，結果就是10這個長度的數組是最常用的最有效率的。也有說就是隨便起的一個數字，8個12個都沒什么區別，只是因為10這個數組比較的圓滿而已。

ArrayList的擴容機制

當添加元素的時候數組是空的，則直接給一個10長度的數組。當需要長度的數組大于現在長度的數組的時候，通過新=舊+舊>>1(即新=1.5倍的舊)來擴容，當擴容的大小還是不夠需要的長度的時候，則將數組大小直接置為需要的長度(這一點切記!)。

ArrayList特點訪問速度塊，為什么?插入刪除一定慢嗎?適合做隊列嗎?

ArrayList從結構上來看屬于數組，也就是內存中的一塊連續空間，當我們get(index)時，可以直接根據數組的首地址和偏移量計算出我們想要元素的位置，我們可以直接訪問該地址的元素，所以查詢速度是O(1)級別的。

我們平時會說ArrayList插入刪除這種操作慢，查詢速度快，其實也不是絕對的。

當數組很大時，插入刪除的位置決定速度的快慢，假設數組當前大小是一千萬，我們在數組的index為0的位置插入或者刪除一個元素，需要移動后面所有的元素，消耗是很大的。但是如果在數組末端index操作，這樣只會移動少量元素，速度還是挺快的(插入時如果在加上數組擴容，會更消耗內存)。

個人覺得不太適合做隊列，基于上面的分析，隊列會涉及到大量的增加和刪除(也就是移位操作)，在ArrayList中效率還是不高。

ArrayList 底層實現就是數組，訪問速度本身就很快，為何還要實現 RandomAccess ?

RandomAccess是一個空的接口, 空接口一般只是作為一個標識, 如Serializable接口。

JDK文檔說明RandomAccess是一個標記接口(Marker interface), 被用于List接口的實現類, 表明這個實現類支持快速隨機訪問功能(如ArrayList). 當程序在遍歷這中List的實現類時, 可以根據這個標識來選擇更高效的遍歷方式。

優缺點

上面說的查詢速度快自然就是其中的優點，除此之外，還可以存儲相同的元素。

底層數據結構屬于數組，和數組的優缺點大同小異，數組屬于線性表，更適合于那種在末尾經常添加數據的場景，而對于在整個list中各個位置隨機添加元素比較多的情況則不太合適。

因為可能會涉及到很多元素位置的移動。

ArrayList還有一個比較大的缺點就是不適應于多線程環境，這個設計之初也不是用于多線程環境的，像ArrayList、LinkedList、HashMap這種常見的都是以效率優先的，都是沒有考慮線程安全的，也就自然不是線程安全的。

而這，恰恰也就是本文的重點，也是面試官最愛的菜。

ArrayList中的Fail-fast機制

fail-fast快速失敗機制，一個線程A在用迭代器遍歷集合時，此時另一個線程B如果對集合進行修改，就會導致線程A快速失敗，然后線程會拋出.。ConcurrentModificationException異常。

在java.util中的集合類都是快速失敗的，快速失敗機制就是應對多線程場景的。

Vector真的安全嗎

如何使用安全的ArrayList，很多人的答案可能是Vector，而Vector的實現其實也很簡單，我給大家看段代碼。

是的，道理也很簡單，就是直接在每個方法加上synchronized關鍵字。

public class CaptainTest { 
 
    private static Vector<Integer> vector = new Vector(); 
 
    public static void main(String[] args) { 
        while (true) { 
            for (int i = 0; i < 10; i++) { 
                vector.add(i); //往vector中添加元素 
            } 
            Thread removeThread = new Thread(new Runnable() { 
                @Override 
                public void run() { 
                    for (int i = 0; i < vector.size(); i++) { 
                        Thread.yield(); 
                        //移除第i個數據 
                        vector.remove(i); 
                    } 
                } 
            }); 
            Thread printThread = new Thread(new Runnable() { 
                @Override 
                public void run() { 
                    for (int i = 0; i < vector.size(); i++) { 
                        Thread.yield(); 
                        //獲取第i個數據并打印 
                        System.out.println(vector.get(i)); 
                    } 
                } 
            }); 
            removeThread.start(); 
            printThread.start(); 
            //避免同時產生過多線程 
            while (Thread.activeCount() > 20) ; 
        } 
    } 
 
}

我們來執行上面的這段代碼，這段代碼會產生兩種線程，一種remove移除元素，一種是get獲取元素，但是都調用了size方法獲取大小。

執行之后會報一個越界的異常，這是為啥呢，Vector不是每個方法都加上了synchronized關鍵字了嗎，怎么會出現這種錯誤。

加上關鍵字保證其它線程不能同時調用這些方法了，也就是，不能出現兩個及兩個以上的線程在同時調用這些同步方法。

圖中報錯的問題的原因是：例子中的線程連續調用了兩個或者兩個以上的同步方法，聽起來很奇怪是嗎?我來解釋下。

例子中的removeThread線程會首先調用size方法獲取大小，接著調用remove方法移除相應位置的元素，而printThread線程也是先調用size方法獲取大小，接著調用get方法獲取相應位置的元素。

假設vector大小是5，此時printThread線程執行到i=4的時候，進入for循環但是在執行輸出之前，線程的CPU時間片到了，此時printThread則轉入到就緒狀態。

此時removeThread線程獲得CPU的執行權，然后把vector中的5個元素都刪除了，此時removeThread的CPU時間片到了。

而此時printThread再獲取到CPU的執行權，此時執行輸出中的get(4)方法就會出現越界的錯誤，因為此時vector中的元素已經被remove線程刪除了。

synchronized關鍵字保證的是同一時間片只有一個線程進入該方法執行，但是無法保證多個線程之間的數據同步，也就是remove線程刪除vector元素之后無法通知到print線程。

聰明的你應該已經理解這個場景了吧，所以，vector在多線程使用的時候也不是絕對安全的。

CopyOnWriteArrayList

這個就是為了解決多線程下的ArrayList而生的，位于java.util.cocurrent包下，就是為并發而設計的。

我們聽名字其實也可以簡單的讀懂，就是寫的時候會復制一份新的數據，而事實是每一次的數據改動都會伴隨這一次數據的復制。

設計的重點其實就是讀寫分離，這個思想大家再熟悉不過了吧，讀的時候不會加鎖，而寫的時候會復制一份新數據，然后加上鎖之后進行修改。

老規矩，先看一段代碼，我們通過debug的方式來學習下先。

public static void main(String[] args) { 
 
        CopyOnWriteArrayList list = new CopyOnWriteArrayList(); 
        list.add("test1"); 
 
        Thread addThread = new Thread(new Runnable() { 
            @Override 
            public void run() { 
                list.add("test4"); 
                try { 
                    Thread.sleep(1000); 
                } catch (InterruptedException e) { 
                    e.printStackTrace(); 
                } 
            } 
        }); 
 
        addThread.start(); 
 
    }