有效應對Oracle EPM系統宕機 這些重點你get了嗎?
導致Oracle企業績效管理系統宕機的原因有很多。有效應對Oracle EPM系統宕機,有哪些防患于未然的技巧需要掌握呢?
企業正在日益擴大對企業績效管理系統(EPM)的部署規模,以獲得更廣泛的用戶基礎。EPM 應用程序可以幫助他們在企業范圍內共享財務信息,對業務成果進行全面的分析,這不僅限于財務部。使得這些系統對于企業來說,比以往任何時候都顯得重要。本文將討論Oracle EPM 系統如何實現高可用性和容錯,如何預防宕機。以及一旦出現宕機,如何有效縮短宕機時間,并從宕機中快速完成系統恢復。
想要構建一個高可用性的EPM系統,首先需要設立你所要求的服務級別。這個過程包括,檢查和評估不同類型故障的發生概率,評估業務系統對這些故障所導致的停機時間和數據丟失的容忍程度等。填寫一個像下圖所示的簡單表格,可以幫助你文檔化業務系統對EPM服務水平的要求。例如,你可以創建一個如下圖所示的表格,它包含兩個針對特定故障的服務水平指標:一個是恢復點目標(RPO),規定可容忍數據丟失的最長時間,另一個是恢復時間目標(RTO),是恢復數據所需時間的量化指標。
Oracle EPM 系統服務水平需求量化表格示例
現在讓我們來看看一些常見的故障類型,以及應對這些故障所需的步驟,以避免或最大限度地減少其對Oracle EPM系統的影響,以便系統能夠達到你所需的服務水平。
數據損壞。大多數EPM系統故障是由于人為錯誤導致的,這意味著數據損壞是最常見的一種故障。周期性的數據備份可以應對數據損壞的問題。
Hyperion的產品線是Oracle EPM套件的基石。Hyperion的生命周期管理工具可以被腳本化,它可以定期備份安全設置、應用程序、數據、報告和其他EPM組件。腳本需要人為的維護和監控,因為他們可能需要不斷的調整,以適合應用程序的不斷變化。
備份EPM服務器本身,以防止操作系統層的損壞,這同樣十分重要。此外,關系數據庫存儲也要進行備份,以預防損壞問題。
時機也非常重要。數據庫、操作系統和文件系統需要在同一時間點進行恢復。你需要為恢復計劃協調系統、數據庫和Hyperion安全程序,以確保平臺的一致性。
硬件故障。服務器硬件故障通常并不太常見,但并不是完全不會出現。處理因硬件故障而引起的系統宕機,一個常見的策略是使用服務器集群,它可以在發生系統故障時,完成相應的服務處理。有兩種不同類型的集群:active-active集群和active-passive集群。
在active - active集群中,服務器被配置為在多個服務器間分發工作負載,所有這些服務器在同一時間運行相同的服務。這樣做的目的是實現負載均衡。通常,一個物理負載均衡器作為集群的單一入口,它在服務器間負責分配處理資源的請求。如果一臺服務器發生故障,其余的節點都將繼續正確運行。active - active集群通常用于Oracle EPM產品的網絡層。
然而在某些情況下,Oracle EPM套件并不支持多個active-active負載平衡組件。在這些情況下,需要一個active-passive 集群。在active-passive集群中,同一時間上,只有一個服務器在處理服務。如果它發生故障,備用服務器會探測到故障,開始處理服務,恢復系統運轉。active-passive集群在EPM系統的數據層是十分常見的,它類似于用于支撐Hyperion部署的Essbase多維數據庫。
數據中心故障。參照目前可用的技術,有很多方法來預防數據中心的整體故障。方法之一是經常導出EPM產品生命周期管理到另一個數據中心災難恢復實例。這個過程可能會比較復雜,需要大量的腳本、自動化和維護操作,但對于不具備昂貴數據復制技術,但對停機時間有嚴格要求的用戶,上述方式十分常見。
對于那些對停機時間要求嚴格的用戶,在兩個數據中心之間,可使用復制軟件來實現系統同步。這意味著在數據中心發生故障時,幾乎不會丟失數據。但其缺點是,復制軟件的成本過高。
通過質量保證預防故障
防患于未然,才是應對宕機最好的方式。一定要建立嚴格的質量控制體系,對于開發人員,測試人員和其他EPM項目參與者,根據其相應的安全訪問權限,制定明確的角色職責體系。質量控制還提供了一個框架,用于在產品投入使用前進行適當的測試。此外,質量控制還會建立對應的工作流,審批,審計跟蹤,退出程序,通過/失敗等質量保證流程。
對Hyperion進行適當的管理和維護也是非常重要的。和任何其他的系統一樣,每天,每周,每月都需要完成一些周期性的任務,以實現對Oracle EPM系統的適當調整。這些任務包括日志輪轉。文件系統清理,系統健康監測,災難恢復測試和性能監控等。
EPM系統監控和安全
當然,世界上所有準備和預防流程都不能完全的消除故障。但你需要對這些突發事件有所準備,并確保你具有應急預案來檢測故障并作出快速反應。
問題檢測是盡可能縮小宕機時間的關鍵。有很多商業或免費軟件可用來監控EPM系統健康情況。這些軟件包可以檢測故障,并立即通知適當的人來解決,有時甚至是在用戶意識到這個問題之前。
此外,可以為相應的事件設置報警,在這些事件引發真正的的中斷之前發出預警信息。一般需要設置報警的事件包括響應時間慢,磁盤空間不足,一些服務系統日志中的錯誤和CPU或內存利用率過高等。
安全是每個行業CIO們的首要任務,這毋庸置疑。Oracle EPM系統通常用于保存敏感且機密的財務數據。安全流程和安全工具需要在系統的每個層面都得以落實。這些過程包括密碼強度和密碼輪換策略,操作系統強化、網絡防火墻、隔離級別,連續入侵檢測和數據加密等,無論在數據傳輸過程中還是在系統空閑時,上述這些手段都在持續發揮著作用。
這些內容聽起來可能有些復雜,但這些措施都需要你承擔的成本。不過如果你什么也不做,你所付出的成本將會更加不可估量。在大多數情況下,用在保護相關業務數據,硬件和數據中心設施上的成本明顯低于EPM系統故障和產生的數據丟失時對于企業造成的損失。什么都不做的代價對企業來說,是非常昂貴的