押寶廣告賺滿缽的墨跡天氣 又開辟了新的吸金方式
原創【51CTO.com原創稿件】約友出行被拒,理由是“墨跡天氣(以下簡稱墨跡)”實時空氣質量提示PM2.5指數爆表。和大多工具類APP商業變現方式一樣,墨跡也是各種簡單粗暴的廣告。根據2016年底墨跡提交的創業板招股書中顯示,廣告營收占比95%以上,年利潤2000多萬,可謂押寶廣告賺滿缽。
押寶廣告的變現方式真的能走遠嗎?從墨跡的使用場景看,它的用戶粘性和產品矩陣還有待提升,這也直接影響到未來的廣告轉化率。近日了解到,墨跡從2015年底到2016年初,便開始布局B端的業務,致力于公司發展積累的技術人才、海量氣象數據和對氣象領域的研究及國家對氣象數據的開放程度,為對氣象有特殊需求的行業提供企業級氣象服務,這又將是一種新的吸金方式。
無論是C端的流量變現還是B端的定制化氣象服務解決方案,想要商業化成功,氣象數據是基石。墨跡高級技術總監王磊介紹,從塞班那個年代,墨跡APP創始就開始積累數據直至今日,原始數據全部保留。近四五年,細分領域的大數據變得越來越重要,墨跡也開始發力,建設大數據平臺和投入人力,試圖從海量氣象數據中,找到用戶及天氣預報中的模型和規律。基于這些做個性化推薦,精細化服務,當然也包括商業化運營。
海量氣象數據的來源與分析
數據來源
做氣象預測,觀測數據是充分必要條件,直接影響預報的準確性。觀測數據理想的狀態是觀測點足夠多,氣象預測就會更精準,如在北京布設100個點,可北京面積廣闊,點與點之間的溫度、氣壓又是多少?
墨跡的數據主要來源于三方面:第三方氣象組織、各種設備傳感器和時景社區。
***方面是和其他氣象公司合作,如中國國家氣象局,美國NOAA(美國國家海洋和大氣管理局)的GFS,歐洲EC(歐洲中期天氣預報中心),日本氣象衛星數據以及中國國家氣象局的數據等。這些組織有全球觀測數據,這些觀測數據通過衛星做遙感,所以質量相對較高,每天約有500G左右的量。
第二方面就是各種傳感器,如墨跡C端用戶的手機基本都帶有氣壓計、溫度傳感器。還有和外部的通用汽車合作,汽車上也有余量計,傳感器且量非常大。還有魅族、華為手機也預裝了墨跡App,可從中獲得相關數據。這部分數據量每天約8000萬左右,但由于形式不一,每個設備上的數據都有偏差波動,導致質量參差不齊,要進行統一化的處理才能投入使用。
第三方面時景社區,就是實時天氣社區,每天約有十萬天氣照片上傳到時景社區,總氣象圖片資源達億級,是目前國內***的實時天氣圖片社區。
數據分析
墨跡的數據分析分為兩部分,一部分是0~2兩個小時的短時預報和2~8小時的短臨預報。另一部分是8小時到15天的中長期預報。機器學習主要用在短時預報,主要采用業界比較先進的神經學習網絡,如用FCN網絡(全卷積網絡)和Conv-LSTM網絡(長短時記憶網絡)等這些具體的分支,實現把不同來源的數據做噪音的排除,之后融合,去學習這些氣象數據在歷史上的變化趨勢。
短時預報除C端用戶可以在出門前查看實時天氣之外,B端用戶也可以結合氣象,節省成本,提升效率。墨跡商業化VP張明明介紹,像運輸、末端物流、農業等行業對短時預報的需求相對較高,例如中石油物流配送案例,雙方把歷史天氣數據和中石油的銷售數據整合,進行模型訓練,幫助中石油解決周期長且跨省的資源調配問題。
短時預報采用的技術是機器學習,中長期預報是另一套體系,以下內容將圍繞短時預報具體的發展歷程、技術細節等內容展開。
機器學習在墨跡天氣的應用實踐
短時預報的發展歷程與系統架構
墨跡短時預報系統是從2015年糾察小隊長內測開始發展,一步步趨近成熟。如下圖,是墨跡短時預報的發展歷程:
在整個的發展歷程中,墨跡有三次里程碑事件:
- 2016年8月,首度利用深度學習CNN網絡處理雷達回波中的噪音,對于單獨的雷達噪音和部分混合的雷達噪音有效。
- 2017年3月,利用人工智能技術和傳統模式預報技術的結合,在沒有雷達覆蓋的區域增加GFS預報數據作為補充數據源,準確率進一步提高。
- 2017年5月,深度學習算法應用在短時核心外推環節。
如下圖,是墨跡短時預報的頂層設計:
墨跡短時預報的頂層設計由輸入(數據源、反饋、WRF)、中間層(去噪、外推)和輸出(預測圖)三部分構成。
短時預報系統所涉及的主要技術
短時預報系統使用的技術有很多,這里主要分享兩部分:算法模型和算法實現。
算法模型有深度學習圖像去噪算法(CNN網絡)、深度學習圖像外推算法(RNN循環網絡)、機器學習雨雪分辨模型(SVM支持向量機分類)、模式預報數據融合等。
算法實現有Google Tensorflow 深度學習框架、Caffe 深度學習框架、Opencv 圖像處理庫、Sklearn 機器學習庫等。
去噪技術
去噪問題在深度學習里可以歸結為一類叫做“圖像語義分割”的任務,相對于普通的圖像分類的任務,這類任務要求對圖像的每個點標記它的類別,而對應雷達圖去噪,就是需要逐點的標記這個像素點是正常回波還是噪音。墨跡通過人工搜集的方式,積累大量的噪聲數據集,并進行人工標記,投入訓練。目前,去噪環節已經迭代了三個版本。
外推技術
外推技術采用的是RNN(循環神經網絡)算法。
如下是RNN(循環神經網絡)簡易圖:
預報問題屬于時序問題的一種,循環神經網絡非常適合處理時序相關問題。
如下是LSTM(長短期記憶網絡)網絡簡易圖:
短時預報外推需要進行多次循環計算過程,傳統循環神經網絡在如此多的循環過程中會明顯丟失網絡初始輸入數據特征,從而導致外推出來的圖片準確率很低,長短期網絡可以明顯改善此問題。
墨跡使用最近歷史圖片按時間先后順序輸入循環網絡,然后網絡會根據圖片的變化趨勢結合歷史變化規律生成未來預測圖。
雨雪分辨技術
如下圖,是基于GFS預測數據的雨雪預測:
如下圖,是基于模式預報數據的雨雪分類:
由于短時預報結果只能預報出降水情況,無法區分降水的類型,所以需要額外模型來對降水類型進行判斷,雨雪分辨模型做的就是通過機器學習方法判斷降水類型是降雨還是降雪,以提供最終的實況天氣類型。
數值預報技術
如下是全國雷達站覆蓋圖:
如下是模式預報數據:
目前,墨跡也在做一些傳統的數值天氣預報方面的研究和應用。
人們從上個世紀開始用數值天氣預報的方法解決天氣預報的問題,通過求解一系列描述大氣運動的動力學、熱力學偏微分方程組的數值解,來計算大氣未來的狀態,從而預測出未來的天氣。
但是這種預報方式的發展依賴于計算機技術的發展,因為它的計算量相當的驚人,每個時間步長有著五億個空間格點、綜合考慮空間尺度延伸幾百米到幾千公里、時間尺度遍及幾秒到幾周不等。
目前墨跡的氣象研究團隊也在從事相關的研究和應用,最細的3-5km的模式分辨率,每個時間步長需要計算上百萬(140萬)個空間格點,計算量也是相當的驚人,需要動用超算或集群的資源才能應用。
關于未來
當前,氣象領域的市場競爭愈演愈烈,不知道墨跡這條基于海量氣象數據分析的領先技術,為企業級用戶提供企業級氣象服務的吸金路能走多遠,但至少墨跡從功能類App運營商向互聯網綜合氣象服務提供商的轉型,使得墨跡的路越走越寬。
本月熱文推薦TOP3
??混合云的那些事,如何做到讓公有云和私有云實現1+1>2??
??如何做到兼顧安全與性能?電商網站HTTPS優化探索與實踐??
【51CTO原創稿件,合作站點轉載請注明原文作者和出處為51CTO.com】