作業幫一課研發負責人:業務大爆炸讓我們有機會接受挑戰
回想起一年前的10月19日,作業幫一課做寒假班大促的場景,洪定乾仍會感到手腳發軟、頭皮發麻。
“血的教訓啊,網站后臺掛了,一整個晚上,完全打不開。”
洪定乾負責作業幫一課技術研發,他說責任完全在己,一頓火鍋的時間,系統癱瘓了。
“我正在外面吃火鍋,覺得不會有問題。同事打電話問我,能不能開閘,我說沒問題,開吧。技術團隊預估系統能夠扛住,當時大家都很平和。”
結果,晚八點,時間一到,全國各地報課的家長們蜂擁而入,作業幫后臺秒癱。直到第二天早晨六點才修好。
那之前,洪定乾就清楚,經過數年沉淀積蓄,在線教育行業和作業幫已經踩上了風口,他們預估那次“大促秒殺”會有幾倍增長。但他們根本沒想到,是數量級增長。
“系統一旦受損,恢復很復雜,我們剛把系統恢復一部分,馬上家長又沖進來,又扛不住了。當時家長為孩子搶課殺紅了眼,系統越卡,家長越覺得課程火爆,搶的就越激烈。就這樣,反反復復,整個系統癱瘓了一晚上。”
考驗
一課研發團隊“敗走麥城”,除了對業務暴漲預估不足,還在于他們的“傲嬌”。作業幫創始團隊脫胎于百度,以人工智能、大數據等硬核技術起家,有極強的互聯網基因,“我們一直以為技術不是我們的短板,我們的技術不會有任何問題。后來才恍然這塊成短板了。”
痛心疾首,痛下決心,去年下半年開始,作業幫不斷加大技術投入。“我們當時定了一個目標,今年無論如何必須拿下2019暑期班這場戰役。”
類似電商行業的雙十一、618,在線教育每年有寒假班、暑期班兩次大促,每次大促又有兩次峰值,10月份寒假課的報課峰值和寒假期間的上課峰值,4月份暑假班報課峰值和暑期上課峰值。每次峰值都形成對后臺系統的一輪猛烈沖擊。
每到課程開售那一刻,家長和學生們就會瘋狂哄搶心儀的主講老師的課程。一課研發團隊在年初預估今年暑期班報課筍尖峰值將達到平時流量的180-200倍。
闖過了秒殺報課的瞬時爆炸性沖擊,洪定乾很快迎來漫長暑假直播課的高并發大流量長周期考驗。
“對于直播課場景來說,容錯幾率很低,老師講課具有邏輯和連貫性,一環扣一環,如果出現卡頓、黑屏等故障,用戶有幾秒鐘沒聽懂,可能這節課就聽不懂了。課上有很多強交互場景,一旦有閃失,這門課的互動效果就大大折損。直播課面對的是重度付費用戶,他們對產品和服務質量要求非常高,這無形中就把技術難度提高了很多。”
在線教育近年雖然大火,但是能否在技術上承接住持續的學員指數級增長,是各家公司首先要面對的。
備戰
2019年春節一過,一課研發團隊就全面投入到暑期備戰。當時,在線教育暑期招生大戰,已經磨刀霍霍,沉寂多時的互聯網江湖,戰火再起。
一課研發團隊的工作集中在兩方面:一是招兵買馬,二是技術與架構升級。
作業幫與互聯網巨頭激烈爭搶人才,眾多技術大牛紛紛加盟,“他們看中我們對技術的重視和投入,看中在線教育有更廣闊空間。”
與此同時,一課研發團隊基于百度云打造自己的基礎架構層,在底層架構上構建PaaS體系。在應用層全面迭代升級了一課的售賣、直播、課后、算法數據等幾大技術系統。第一,交易中臺。支撐在線購買課程,以及物流物料等。第二,教學中臺。支持視頻直播場景,是用戶量、并發量最大的業務系統。第三,課后系統。支撐班主任、客服等課后服務場景。第四,算法+數據系統。賦能教研、教學、服務、營銷等全場景。
其中,針對今年暑假可能比去年寒假更猛烈的爆炸式增長,制定一系列應對預案,“直播場景對系統流暢性和互動的要求非常高,光提高系統吞吐能力是遠遠不夠的,我們對很多特殊場景做了優化和多級緩存來應對,同時準備了備用方案來保證直播順暢。”
洪定乾介紹,直播課涉及多業務部門協同,導致技術鏈條長且復雜,對技術更考驗的是系統間的聯動和穩定性。一些看似簡單的場景背后卻需要多個系統間的支持,每一環的配合要求都很高。此外,當流量增長數倍,并不是普通人以為的服務器增長幾倍就能應付,量變沖擊系統必須質變,導致架構顛覆性改造甚至推到重來。
“好在我們的技術底子厚。”首先,作業幫的技術積累豐富,從創始人到技術團隊的背景,都有強大的工程師文化基因以及技術基因。第二,一課擁有先進的底層架構和技術選型。第三,對高并發大流量場景下的優化,即直播的穩定性領先。
就這樣,一課研發團隊終于完成作業幫一課技術系統全面升級。然后,靜靜等待大考來臨。
大考
4月17日,數百倍于平時流量的暑假班大促沖擊波如期而至,作業幫后臺最終成功經受住了考驗。
7月15號開始,又進入長達一個多月的直播高峰期,系統始終平穩高質量運行。
“作業幫的學生覆蓋全國各地,很多來自不發達地區,設備和網絡差異性確實非常大。其他行業完全可以放棄這極少數用戶,但作業幫不能,任何一個孩子因為卡頓、黑屏哇哇大哭,都讓人舍不得。”
直播課系統設計之初,作業幫就盡量降低對于終端設備性能的依賴。對于小部分性能確實較差的設備,采取臨時降級措施,首先保證直播體驗的流暢和穩定,確保學生在課堂完整學習,對次要功能體驗則做出一些取舍。
日前,作業幫創始人兼CEO侯建彬在某會議演講透露,今年暑假作業幫一共實現了總量200萬的招生人次,秋季預計能有同比400%的增長。
“不是所有公司都經歷這樣的業務大爆炸,讓我們有機會去迎接挑戰,是非常難得的機會。”洪定乾說。
他表示,未來一課研發團隊將保持穩定性這一行業絕對優勢。繼續推進中臺戰略,打好系統基礎,加快技術在更多場景落地,以更好服務業務發展。