OpenStack使用Ceph存儲,Ceph到底做了什么?
1 背景知識
1.1 Ceph簡介
- Ceph是當前非常流行的開源分布式存儲系統,具有高擴展性、高性能、高可靠性等優點,同時提供塊存儲服務(rbd)、對象存儲服務(rgw)以及文件系統存儲服務(cephfs)。目前也是OpenStack的主流后端存儲,和OpenStack親如兄弟,為OpenStack提供統一共享存儲服務。使用Ceph作為OpenStack后端存儲,具有如下優點:
- 所有的計算節點共享存儲,遷移時不需要拷貝根磁盤,即使計算節點掛了,也能立即在另一個計算節點啟動虛擬機(evacuate)。
- 利用COW(Copy On Write)特性,創建虛擬機時,只需要基于鏡像clone即可,不需要下載整個鏡像,而clone操作基本是0開銷,從而實現了秒級創建虛擬機。
Ceph RBD支持thin provisioning,即按需分配空間,有點類似Linux文件系統的sparse稀疏文件。創建一個20GB的虛擬硬盤時,最開始并不占用物理存儲空間,只有當寫入數據時,才按需分配存儲空間。
Ceph的更多知識可以參考官方文檔,這里我們只關注RBD,RBD管理的核心對象為塊設備(block device),通常我們稱為volume,不過Ceph中習慣稱之為image(注意和OpenStack image的區別)。Ceph中還有一個pool的概念,類似于namespace,不同的pool可以定義不同的副本數、pg數、放置策略等。每個image都必須指定pool。image的命名規范為pool_name/image_name@snapshot,比如openstack/test-volume@test-snap,表示在openstackpool中test-volumeimage的快照test-snap。因此以下兩個命令效果是等同的:
- rbd snap create --pool openstack --image test-image --snap test-snap
- rbd snap create openstack/test-image@test-snap
在openstack pool上創建一個1G的image命令為:
- rbd -p openstack create --size 1024 int32bit-test-1
image支持快照(snapshot)的功能,創建一個快照即保存當前image的狀態,相當于git commit操作,用戶可以隨時把image回滾到任意快照點上(git reset)。創建快照命令如下:
- rbd -p openstack snap create int32bit-test-1@snap-1
查看rbd列表:
- $ rbd -p openstack ls -l | grep int32bit-test
- int32bit-test-1 1024M 2
- int32bit-test-1@snap-1 1024M 2
基于快照可以創建一個新的image,稱為clone,clone不會立即復制原來的image,而是使用COW策略,即寫時拷貝,只有當需要寫入一個對象時,才從parent中拷貝那個對象到本地,因此clone操作基本秒級完成,并且需要注意的是基于同一個快照創建的所有image共享快照之前的image數據,因此在clone之前我們必須保護(protect)快照,被保護的快照不允許刪除。clone操作類似于git branch操作,clone一個image命令如下:
- rbd -p openstack snap protect int32bit-test-1@snap-1
- rbd -p openstack clone int32bit-test-1@snap-1 int32bit-test-2
我們可以查看一個image的子image(children)有哪些,也能查看一個image是基于哪個image clone的(parent):
- $ rbd -p openstack children int32bit-test-1@snap-1
- openstack/int32bit-test-2
- $ rbd -p openstack info int32bit-test-2 | grep parent
- parent: openstack/int32bit-test-1@snap-1
以上我們可以發現int32bit-test-2是int32bit-test-1的children,而int32bit-test-1是int32bit-test-2的parent。
不斷地創建快照并clone image,就會形成一條很長的image鏈,鏈很長時,不僅會影響讀寫性能,還會導致管理非常麻煩??尚业氖荂eph支持合并鏈上的所有image為一個獨立的image,這個操作稱為flatten,類似于git merge操作,flatten需要一層一層拷貝所有頂層不存在的數據,因此通常會非常耗時。
- $ rbd -p openstack flatten int32bit-test-2
- Image flatten: 31% complete...
此時我們再次查看其parrent-children關系:
- rbd -p openstack children int32bit-test-1@snap-1
此時int32bit-test-1沒有children了,int32bit-test-2完全獨立了。
當然Ceph也支持完全拷貝,稱為copy:
- rbd -p openstack cp int32bit-test-1 int32bit-test-3
copy會完全拷貝一個image,因此會非常耗時,但注意copy不會拷貝原來的快照信息。
Ceph支持將一個RBD image導出(export):
- rbd -p openstack export int32bit-test-1 int32bit-1.raw
導出會把整個image導出,Ceph還支持差量導出(export-diff),即指定從某個快照點開始導出:
- rbd -p openstack export-diff \
- int32bit-test-1 --from-snap snap-1 \
- --snap snap-2 int32bit-test-1-diff.raw
以上導出從快照點snap-1到快照點snap-2的數據。
當然與之相反的操作為import以及import-diff。通過export/import支持image的全量備份,而export-diff/import-diff實現了image的差量備份。
Rbd image是動態分配存儲空間,通過du命令可以查看image實際占用的物理存儲空間:
- $ rbd du int32bit-test-1
- NAME PROVISIONED USED
- int32bit-test-1 1024M 12288k
以上image分配的大小為1024M,實際占用的空間為12288KB。
刪除image,注意必須先刪除其所有快照,并且保證沒有依賴的children:
- rbd -p openstack snap unprotect int32bit-test-1@snap-1
- rbd -p openstack snap rm int32bit-test-1@snap-1
- rbd -p openstack rm int32bit-test-1
1.2 OpenStack簡介
OpenStack是一個IaaS層的云計算平臺開源實現,關于OpenStack的更多介紹歡迎訪問我的個人博客,這里只專注于當OpenStack對接Ceph存儲系統時,基于源碼分析一步步探測Ceph到底做了些什么工作。本文不會詳細介紹OpenStack的整個工作流程,而只關心與Ceph相關的實現,如果有不清楚OpenStack源碼架構的,可以參考我之前寫的文章如何閱讀OpenStack源碼。
閱讀完本文可以理解以下幾個問題:
- 為什么上傳的鏡像必須要轉化為raw格式?
- 如何高效上傳一個大的鏡像文件?
- 為什么能夠實現秒級創建虛擬機?
- 為什么創建虛擬機快照需要數分鐘時間,而創建volume快照能夠秒級完成?
- 為什么當有虛擬機存在時,不能刪除鏡像?
- 為什么一定要把備份恢復到一個空卷中,而不能覆蓋已經存在的volume?
- 從鏡像中創建volume,能否刪除鏡像?
注意本文都是在基于使用Ceph存儲的前提下,即Glance、Nova、Cinder都是使用的Ceph,其它情況下結論不一定成立。
(注:原文有源代碼,已經超過5000字的篇幅限制,因此做了精簡,如果需要看詳細推導驗證過程,請查看原文鏈接,另外你可以快速跳到總結部分查看OpenStack各個操作對應的Ceph工作。)
2 Glance
2.1 Glance介紹
Glance管理的核心實體是image,它是OpenStack的核心組件之一,為OpenStack提供鏡像服務(Image as Service),主要負責OpenStack鏡像以及鏡像元數據的生命周期管理、檢索、下載等功能。Glance支持將鏡像保存到多種存儲系統中,后端存儲系統稱為store,訪問鏡像的地址稱為location,location可以是一個http地址,也可以是一個rbd協議地址。只要實現store的driver就可以作為Glance的存儲后端,其中driver的主要接口如下:
- get: 獲取鏡像的location。
- get_size: 獲取鏡像的大小。
- get_schemes: 獲取訪問鏡像的URL前綴(協議部分),比如rbd、swift+https、http等。
- add: 上傳鏡像到后端存儲中。
- delete: 刪除鏡像。
- set_acls: 設置后端存儲的讀寫訪問權限。
為了便于維護,glance store目前已經作為獨立的庫從Glance代碼中分離出來,由項目glance_store維護。目前社區支持的store列表如下:
- filesystem: 保存到本地文件系統,默認保存/var/lib/glance/images到目錄下。
- cinder: 保存到Cinder中。
- rbd:保存到Ceph中。
- sheepdog:保存到sheepdog中。
- swift: 保存到Swift對象存儲中。
- vmware datastore: 保存到Vmware datastore中。
http: 以上的所有store都會保存鏡像數據,唯獨http store比較特殊,它不保存鏡像的任何數據,因此沒有實現add方法,它僅僅保存鏡像的URL地址,啟動虛擬機時由計算節點從指定的http地址中下載鏡像。
本文主要關注rbd store,它的源碼在這里,該store的driver代碼主要由國內Fei Long Wang負責維護,其它store的實現細節可以參考源碼glance store drivers.
3 Nova
3.1 Nova介紹
Nova管理的核心實體為server,為OpenStack提供計算服務,它是OpenStack最核心的組件。注意Nova中的server不只是指虛擬機,它可以是任何計算資源的抽象,除了虛擬機以外,也有可能是baremetal裸機、容器等。
不過我們在這里假定:
- server為虛擬機。
- image type為rbd。
- compute driver為libvirt。
啟動虛擬機之前首先需要準備根磁盤(root disk),Nova稱為image,和Glance一樣,Nova的image也支持存儲到本地磁盤、Ceph以及Cinder(boot from volume)中。需要注意的是,image保存到哪里是通過image type決定的,存儲到本地磁盤可以是raw、qcow2、ploop等,如果image type為rbd,則image存儲到Ceph中。不同的image type由不同的image backend負責,其中rbd的backend為nova/virt/libvirt/imageackend中的Rbd類模塊實現。
4 Cinder
4.1 Cinder介紹
Cinder是OpenStack的塊存儲服務,類似AWS的EBS,管理的實體為volume。Cinder并沒有實現volume provide功能,而是負責管理各種存儲系統的volume,比如Ceph、fujitsu、netapp等,支持volume的創建、快照、備份等功能,對接的存儲系統我們稱為backend。只要實現了cinder/volume/driver.py中VolumeDriver類定義的接口,Cinder就可以對接該存儲系統。
Cinder不僅支持本地volume的管理,還能把本地volume備份到遠端存儲系統中,比如備份到另一個Ceph集群或者Swift對象存儲系統中,本文將只考慮從源Ceph集群備份到遠端Ceph集群中的情況。
5 總結
5.1 Glance
1. 上傳鏡像
- rbd -p ${GLANCE_POOL} create --size ${SIZE} ${IMAGE_ID}rbd -p ${GLANCE_POOL} snap create ${IMAGE_ID}@snap
- rbd -p ${GLANCE_POOL} snap protect ${IMAGE_ID}@snap
2. 刪除鏡像
- rbd -p ${GLANCE_POOL} snap unprotect ${IMAGE_ID}@snap
- rbd -p ${GLANCE_POOL} snap rm ${IMAGE_ID}@snap
- rbd -p ${GLANCE_POOL} rm ${IMAGE_ID}
5.2 Nova
1 創建虛擬機
- rbd clone \${GLANCE_POOL}/${IMAGE_ID}@snap \${NOVA_POOL}/${SERVER_ID}_disk
2 創建虛擬機快照
- # Snapshot the disk and clone # it into Glance's storage poolrbd -p ${NOVA_POOL} snap create \${SERVER_ID}_disk@${RANDOM_UUID}rbd -p ${NOVA_POOL} snap protect \${SERVER_ID}_disk@${RANDOM_UUID}rbd clone \${NOVA_POOL}/${SERVER_ID}_disk@${RANDOM_UUID} \${GLANCE_POOL}/${IMAGE_ID} # Flatten the image, which detaches it from the # source snapshotrbd -p ${GLANCE_POOL} flatten ${IMAGE_ID} # all done with the source snapshot, clean it uprbd -p ${NOVA_POOL} snap unprotect \${SERVER_ID}_disk@${RANDOM_UUID}rbd -p ${NOVA_POOL} snap rm \${SERVER_ID}_disk@${RANDOM_UUID} # Makes a protected snapshot called 'snap' on # uploaded images and hands it outrbd -p ${GLANCE_POOL} snap create ${IMAGE_ID}@snap
- rbd -p ${GLANCE_POOL} snap protect ${IMAGE_ID}@snap
3 刪除虛擬機
- for image in $(rbd -p ${NOVA_POOL} ls | grep "^${SERVER_ID}");do
- rbd -p ${NOVA_POOL} rm "$image"; done
5.3 Cinder
1 創建volume
(1) 創建空白卷
- rbd -p ${CINDER_POOL} create \--new-format --size ${SIZE} \volume-${VOLUME_ID}
(2) 從快照中創建
- rbd clone \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@snapshot-${SNAPSHOT_ID} \${CINDER_POOL}/volume-${VOLUME_ID}rbd resize --size ${SIZE} \openstack/volume-${VOLUME_ID}
(3) 從volume中創建
- # Do full copy if rbd_max_clone_depth <= 0.if [[ "$rbd_max_clone_depth" -le 0 ]]; then
- rbd copy \
- ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID} \
- ${CINDER_POOL}/volume-${VOLUME_ID}
- exit 0fi# Otherwise do COW clone.# Create new snapshot of source volumerbd snap create \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap
- rbd snap protect \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap# Now clone source volume snapshotrbd clone \${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap \${CINDER_POOL}/volume-${VOLUME_ID}# If dest volume is a clone and rbd_max_clone_depth reached,# flatten the dest after cloning.depth=$(get_clone_depth ${CINDER_POOL}/volume-${VOLUME_ID})if [[ "$depth" -ge "$rbd_max_clone_depth" ]]; then
- # Flatten destination volume
- rbd flatten ${CINDER_POOL}/volume-${VOLUME_ID}
- # remove temporary snap
- rbd snap unprotect \
- ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snap
- rbd snap rm \
- ${CINDER_POOL}/volume-${SOURCE_VOLUME_ID}@volume-${VOLUME_ID}.clone_snapfi
(4) 從鏡像中創建
- rbd clone \${GLANCE_POOL}/${IMAGE_ID}@snap \${CINDER_POOL}/volume-${VOLUME_ID}if [[ -n "${SIZE}" ]]; then
- rbd resize --size ${SIZE} ${CINDER_POOL}/volume-${VOLUME_ID}fi
2 創建快照
- rbd -p ${CINDER_POOL} snap create \volume-${VOLUME_ID}@snapshot-${SNAPSHOT_ID}rbd -p ${CINDER_POOL} snap protect \volume-${VOLUME_ID}@snapshot-${SNAPSHOT_ID}
3 創建備份
(1) ***次備份
- rbd -p ${BACKUP_POOL} create \
- --size ${VOLUME_SIZE} \
- volume-${VOLUME_ID}.backup.base
- NEW_SNAP=volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTAMP}
- rbd -p ${CINDER_POOL} snap create ${NEW_SNAP}
- rbd export-diff ${CINDER_POOL}/volume-${VOLUME_ID}${NEW_SNAP} - \
- | rbd import-diff --pool ${BACKUP_POOL} - \
- volume-${VOLUME_ID}.backup.base
(2) 增量備份
- rbd -p ${CINDER_POOL} snap create \volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTAMP} rbd export-diff --pool ${CINDER_POOL} \--from-snap backup.${PARENT_ID}.snap.${LAST_TIMESTAMP} \${CINDER_POOL}/volume-${VOLUME_ID}@backup.${BACKUP_ID}.snap.${TIMESTRAMP} - \| rbd import-diff --pool ${BACKUP_POOL} - \${BACKUP_POOL}/volume-${VOLUME_ID}.backup.base
- rbd -p ${CINDER_POOL} snap rm \volume-${VOLUME_ID}.backup.base@backup.${PARENT_ID}.snap.${LAST_TIMESTAMP}
4 備份恢復
- rbd export-diff --pool ${BACKUP_POOL} \volume-${SOURCE_VOLUME_ID}.backup.base@backup.${BACKUP_ID}.snap.${TIMESTRAMP} - \| rbd import-diff --pool ${CINDER_POOL} - \volume-${DEST_VOLUME_ID}rbd -p ${CINDER_POOL} resize \--size ${new_size} volume-${DEST_VOLUME_ID}