大數(shù)據(jù)項目:購買還是自開發(fā)?
Stephen Laster是位于紐約的McGraw-Hill Education集團(tuán)的***數(shù)字館(chief digital officer),其最主要的工作就是基于數(shù)據(jù)來對業(yè)務(wù)進(jìn)行提升。Laster領(lǐng)導(dǎo)著一個由數(shù)據(jù)科學(xué)家和工程師組成的團(tuán)隊,負(fù)責(zé)制定并實(shí)施公司的e-learning和教育技術(shù)戰(zhàn)略。換句話說,該團(tuán)隊負(fù)責(zé)McGraw-Hill Education的數(shù)字化學(xué)習(xí)產(chǎn)品。
Laster團(tuán)隊的一個重要工作為學(xué)生提供高效、便捷的系統(tǒng)交互界面。在最近幾年中,系統(tǒng)處理了多達(dá)40億次的交互。
“對于特定的學(xué)生,我們能夠獲知其對概念的理解程度,知道他們還需要在方面加以努力,然后靈活地調(diào)整其學(xué)習(xí)路徑,最終讓學(xué)生們對知識形成整體的把握。”Laster說。
正因如此,Laster并不是大數(shù)據(jù)這個詞的擁躉。相反,他更看重小數(shù)據(jù)的作用。為了為學(xué)生提供個性化的應(yīng)用,該團(tuán)隊對數(shù)據(jù)進(jìn)行實(shí)時分析,預(yù)測客戶行為并構(gòu)建具有自學(xué)習(xí)能力的小算法。
當(dāng)Laster面臨買入還是內(nèi)部自建的問題時,他首先是了解市場差異化的機(jī)會,而不是基于項目本身 – 否則得出的結(jié)論將是自己從零開始構(gòu)建。比如,針對關(guān)系數(shù)據(jù)庫管理系統(tǒng)的IT戰(zhàn)略,Laster是這樣考慮的:“雖然看似已經(jīng)沒什么問題,但是為了服務(wù)的差異化,我們決定開發(fā)人工智能和算法。”
Laster及其團(tuán)隊一直都從業(yè)務(wù)產(chǎn)出入手進(jìn)行思考:“首先,在教學(xué)和客戶的學(xué)習(xí)方面,我們的目標(biāo)是什么?然后,我們再回到技術(shù)的層面進(jìn)行決策。”
“一旦確定了目標(biāo),我們會進(jìn)一步分解,然后逐個調(diào)查,看市場上是否有現(xiàn)成的解決方案?”Laster說:“如果有現(xiàn)成的產(chǎn)品,我們就購買或引入開源方案。如果沒有的話,就自行構(gòu)建之。”
最終,基于多年學(xué)術(shù)和工程研究成果,McGraw-Hill開發(fā)了一個名為LearnSmart的應(yīng)用程序接口。Laster認(rèn)為,這是真正能夠推動企業(yè)前行的方案。
Palo Alto市的***信息官Jonathan Reichental認(rèn)為,像McGraw-Hill這樣通過自建而非買入方式,在應(yīng)用層形成差異化的市場優(yōu)勢,是對本文主題的關(guān)鍵啟示。“如果你是CTO,為市場提供服務(wù),通常情況下你都是自建而非買入。”Reichental說:“但是,如果是面向企業(yè)內(nèi)部提供服務(wù),可能用SAP或者第三方產(chǎn)品是更適合的。”
構(gòu)建面向用戶的應(yīng)用有助于消除和整合之前十多年間我們構(gòu)建的各類最終被證明為失敗的系統(tǒng)。
買入也可以形成差異化的優(yōu)勢
但是,Tagged.com(位于舊金山的社交媒體網(wǎng)站)的聯(lián)合創(chuàng)始人和***技術(shù)官Johann Schleier-Smith認(rèn)為,有時候買入是正確的選擇。他與另一創(chuàng)始人Greg Tseng在10年前(與Facebook同時期)創(chuàng)立Tagged.com,當(dāng)時大數(shù)據(jù)還沒有大行其道。“我們用同樣的數(shù)據(jù)庫來同時支撐在線事務(wù)處理和業(yè)務(wù)分析。”
Schleier-Smith認(rèn)為,如今的技術(shù)領(lǐng)域更加細(xì)分,比如NoSQL數(shù)據(jù)庫、分析平臺和開源的Apache社區(qū)。市場的擴(kuò)充影響了Tagged公司的技術(shù)架構(gòu)發(fā)展,該公司每月收集1000億個數(shù)據(jù)事件,導(dǎo)致超過50TB的數(shù)據(jù)量加入到其PB級的存儲集群中。其工程師團(tuán)隊基于各種開源技術(shù)進(jìn)行工作,比如linux、Apache Kafka、Apache Spark和內(nèi)存數(shù)據(jù)分析引擎。
同時,Tagged也采用了商業(yè)化的技術(shù),比如EMC的Greeplum和Vertica。對于那些可以針對特定類型的查詢(尤其是交互式查詢)的高性能數(shù)據(jù)庫技術(shù),Schleier-Smith認(rèn)為:“我們認(rèn)為是值得買入的,因為能形成我們差異化的競爭優(yōu)勢。”
自建或買入?為什么不是租用呢?
另一家位于舊金山的創(chuàng)業(yè)公司ContextLogic則采用了10年前還不存在的方法。既不買入也不自行開發(fā),ContextLogic從一家云計算廠商處租用服務(wù),以此來管理其日志文件。
ContextLogic是社交購物推薦引擎Wish.com的技術(shù)供應(yīng)商,后者據(jù)稱日活躍用戶數(shù)達(dá)110萬,其中96%的用戶是通過移動設(shè)備進(jìn)行訪問。這種模式下,對在線事件的抓取和記錄是及其重要的,主要針對用戶點(diǎn)擊流,比如某用戶是如何找到在線購物車的。所有的這些數(shù)據(jù)(每天大概有4000萬到5500萬需要記錄的事件),都被保存下來供以后的分析用。
“數(shù)據(jù)的規(guī)模以及其時序性,使得日志分析非常有意思。”ContextLogic的聯(lián)合創(chuàng)始人和工程運(yùn)維負(fù)責(zé)人Danny張說:“這就是我眼中的大數(shù)據(jù)。”
隨著公司的發(fā)展,日志數(shù)據(jù)的規(guī)模和重要性也日漸提升。“日志記錄和分析對我來說是最基本的工作,也是大數(shù)據(jù)分析最重要的步驟。”張表示。這些數(shù)據(jù)蘊(yùn)含了客戶的購物偏好,是搜索引擎算法開發(fā)和ContextLogic業(yè)務(wù)決策的基礎(chǔ)所在。由于發(fā)展迅猛,很難有外部的解決方案能夠跟上其腳步,因此張傾向于自行開發(fā)的路線。但是,他同時也選擇了大數(shù)據(jù)服務(wù)提供商treasure Data來管理日志數(shù)據(jù),后者基于亞馬遜的AWS為客戶提供Hadoop平臺。對此,張的解釋是:“日志和我們的發(fā)展速度沒關(guān)系,無論如何,我們都是以同樣的方式來做這部分工作。”
而且,張還表示,租用基于云的數(shù)據(jù)管理服務(wù)其實(shí)也是一種成本優(yōu)化。工程師們不用再為數(shù)據(jù)的規(guī)模而頭疼,可以專注在數(shù)據(jù)的分析上。
“我們沒有坐等***的解決方案從天而降,問題依然是問題,會一直存在下去。”張說:“我們只是碰巧選擇了treasure Data,作為一種問題應(yīng)對的方法。”