為海量文檔自建專用“網盤”,試過都說“真香”?
很多人的日常工作中,都會使用在線協作平臺或云存儲服務來存儲自己的各類文檔。然而當需要通過應用程序來處理、存儲和檢索大量文檔數據時,這種做法往往會造成不小的挑戰。此時,電子文檔管理系統(Electronic Document Management System,EDMS)就成了一種更好的解決方案,因為它們在設計上就能以極高的性能和可用性來存儲、索引和檢索不同類型的文檔,甚至能提供可定制的元數據和版本控制等功能。
延伸閱讀,了解 Akamai cloud-computing
更多強大工具,選擇Akamai cloud-computing!
目前市面上有很多基于SaaS的EDMS解決方案,但為了完全控制自己的數據,我們也可以借助開源EDMS軟件部署自己專用的文檔管理系統。本文將介紹如何在Linode平臺上,借助PostgreSQL數據庫部署高可用的Mayan EDMS。
EDMS帶來的好處
如果希望使用基于Web應用程序的EDMS來存儲和處理海量文檔,并且不希望客戶端安裝任何應用程序,那么這種方式將會是一種理想的選擇。這種中心化運行的EDMS能更好地保證:
- 自己數據的安全性、隱私性以及完全的控制能力
- 與第三方軟件實現更輕松的集成
- 圍繞業務流程打造自動化的文檔工作流
為何使用PostgreSQL?
PostgreSQL是一個強大且開源的對象關系型數據庫管理系統,因其可擴展性、安全性和性能而廣受贊譽。為了支持應用程序的端到端擴展,數據庫還需要具備高可用性。因此本架構包含了專門用于PostgreSQL的數據復制工具。
Mayan EDMS上手
Mayan是一款使用Python開發,基于Web的開源EDMS。按照設計,Mayan默認可在一臺服務器上安裝和運行,此時應用程序和數據庫組件可以位于同一臺服務器或多個Docker容器中。這種配置很適合開發、測試環境,但在生產環境中,我們需要更高可用性,并實現SoC(Separation of Concern,關注點分離)這種已經廣為人知的概念。這是構建分層、可擴展應用程序時很重要的一個最佳實踐。我們的參考架構將介紹如何用Mayan實現該目標。
1.優勢
- 開源,無需購買許可
- 可輕松存儲、查看和檢索文檔的不同版本
- 使用可定制的“用戶定義的元數據”對文檔進行全文搜索
- 靈活的訪問控制,借此設計有效的用戶角色和權限
- 可定制的工作流,通過事件觸發器保持文檔處于最新狀態
2.不足
- 對于較小的用例來說略顯復雜
- 相比其他解決方案,用戶界面不夠直觀
- 光學字符識別(OCR)功能需要耗費大量CPU資源
應用程序參考架構
為了在現實用例中充分優化Mayan的能力,我們的參考架構使用了下列組件:
- NGINX:Web服務器
- Prometheus和Grafana:監控和可觀測性工具
- PostgreSQL:數據庫
- Bucardo:PostgreSQL雙向數據庫復制
- Linode Object Storage:兼容S3的高可用存儲服務
- keepalived:IP故障轉移
NodeBalancer可將流量分配給不同的應用程序節點。如果一臺應用服務器停機,負載均衡服務即可開始將流量分配到正常運行的節點。一旦故障節點恢復正常,負載均衡服務將像故障前那樣分配流量。借此我們可以輕松添加、刪除或更新應用程序服務器,而無需擔心可能導致停機,并且始終維持與PostgreSQL數據庫節點的連接。
作為該應用的“大腦”,Mayan和NGINX被部署在同一臺虛擬機中,我們可以借助Mayan對s3boto3的支持獲得存儲后端,借此將文檔上傳至Linode可兼容S3的對象存儲服務中。
如果應用程序非常關鍵,并使用PostgreSQL作為主后端數據庫,那么可以加入Bucardo以更好地保障持續運行時間,并為數據庫提供容錯性。
我們還可以借助支持PostgreSQL的托管數據庫服務來獲得高可用性和復制能力,但是需要注意,大部分DBaaS服務的重點都是更新PostgreSQL版本并確保數據庫集群始終聯機和可用。因此實施Bucardo可以讓我們的PostgreSQL數據庫在兩個或更多數據庫節點之間進行雙向復制,從而保證數據庫的高可用性。
本例中,所有節點都使用Cloud Firewalls進行保護,防范來自公共互聯網的威脅,這些節點通過私有VLAN實現內部通信。應用程序服務器通過一個共享的浮動VLAN IP地址連接到數據庫,并通過Keepalived實現故障轉移。
Keepalived(或其他IP故障轉移系統,如FRRouting (FRR))是在數據庫層面上實現的,因此正常運行的數據庫節點將能順利連接至應用程序節點集群中。
為重要文件實現容錯
EDMS通常會充當日常工作的中心,其中可能存儲了企業中最重要的文件。本例介紹的應用程序在每個層面上都建立了冗余,不僅可以容錯,也能進一步優化性能:
- 文檔存儲在Linode的高可用Object Storage服務中
- 數據庫位于單獨的節點上,不僅可以改善性能,而且有助于防止單點故障
- Bucardo可以在Postgres節點之間自動執行數據庫復制
探索更多技術內容和架構
Akamai和Linode的解決方案工程團隊會定期分享類似這樣的框架、指南和工具,從而幫助開發者更輕松地遵循最佳實踐來構建應用程序的軟件架構。
這篇文章的內容感覺還行吧?有沒有想要立即在 Linode 平臺上親自嘗試一下?別忘了,現在注冊可以免費獲得價值 100 美元的使用額度,快點自己動手體驗本文介紹的功能和服務吧↓↓↓
歡迎關注Akamai ,第一時間了解高可用的MySQL/MariaDB參考架構,以及豐富的應用程序示例