行為數據交易三定律
行為數據交易三定律
數據交易有什么特點呢?劉鵬談了自己對于數據交易的認識,并總結為以下三定律:
l 第一定律,數據只能交易,不能交換或者共享;
數據共享的事件似乎正在發生,各公司之間在相互的交換數據,希望能夠對彼此的業務產生一些貢獻。但事實上,結果只有兩種:一種是在線上系統進行大規模數據 共享交換的案例,這種只存在于有投資關系(即母公司和子公司控股關系)以后才會發生的數據交換,定價或者交易實際上發生在更高的資本之間。另一種,很多人 的交換或者共享,這種的結果往往不會有下文,大家只是相互測一下數據對于雙方是否有用,測完就結束了。其實,數據在互聯網市場上變現很容易,這也是擁有大 量數據的巨頭公司不會共享數據的原因。即便百度這種大公司拿出一些數據進行共享,也只是短時的貼補,主要用于刺激市場的流動性,但這短期是可行的,長期很 難形成規模。數據具有變現的價值,所以真正的共享是不存在的。唯一可共享的是政府數據,因為政府沒有盈利的需求,但如果無邊界的共享,也會成為一種災難,所以政府數據的共享可描述成一種政府的轉移支付。
l 第二定律,只有按效果而非購買量付費,才有足夠的需求。
廣告的程序化交易過程中,ADX在每一次impression(印象,放置廣告圖像的網頁每一次顯示,就是一次印象)都會向DSP發一次請求,所以每一個impression都會做廣告交易。對方想要什么數據你就給他什么數據。結算不根據數據結算,你給了對方一百萬個標簽,他就給你標簽的錢,而是根據最后贏得的廣告展示量(即數據最后實際產生的效果)付費。
廣告市場這樣做交易,規模才可以做得更大,因為它解決了購買部分數據和按照效果購買數據的問題。如果整體購買數據,數據交易市場會做不起來。互聯網所有的 產品,不管是廣告,還是將來的數據,一定是靠長尾的客戶,靠頭部的客戶。現今的解決方案只適合廣告產業,其他的場景怎樣部分交易,怎樣按效果交易,需要結 合每一個場景討論,全量交易沒有前景。
現今的數據交易所還很初級,它還未發現數據交易中購買需求方的問題。數據需求方要買一部分數據,如果給他全量數據,不僅大量數據用不上,還會給對方造成成本的增加。但在廣告交易里,這個問題已經獲得解決。
l 第三定律,數據交易跟流量交易本質的不同在于,同一數據被越多的人使用價值越低。從流量看,一個廣告位投一次展示,只能是一個人在用,而從數據看,知道這個人是男性,并告訴十個人,它的價值就自然地下降。
給數據定價是數據交易里面最困難的一步。互聯網的廣告和傳統廣告不同,互聯網是通過拍賣的方式競價,定價權掌握在需求方,廣告主給要買的流量定價。廣告對于不同的廣告主,其價值不同,對甲方廣告主可能值1塊,但對乙方廣告主可能值2塊,這時廣告定價1塊或2塊都不合適,而競價可以解決資源的分配。數據最終也會走向競價的模式,但數據的交易和流量的交易卻有本質的差別,流量交易的量會受到限制,即一次就是一次,不可能兩個同時投放。而數據的一個標簽可以給十個人,現在的數字交易是不限量的,會發生數據的價格向流量價格的轉移。
現在的數據交易市場存在一個很大的問題,即數據本身的交易量很大,但價格偏低。這是由于沒有限制數據供給量,使得競價環境不能形成,因此抬高了流量價格, 低估了數據價格。但這個問題并不好解決,因為它會對前面的交易過程有深層次的影響和變化。只有把限量供應和競價的問題解決掉,數據才能真正的合理定價。
未來的大數據行業,需要徹底解決數據交易的問題,數據交易市場才能爆發成長,因為一個沒有交易的商品,很難獲得大規模發展。
大數據隱私問題
關于隱私,你肯定不希望自己的個人數據泄露給不相關的人。歐盟負責隱私保護條例制定委員會——A29協會,對于隱私給出了一些基本的原則,這些原則也是現在歐美互聯網公司的共識。基本原則包括:
- PII(Personal Identifiable Information)不能使用,如家庭地址、電話、名字等信息。PII嚴格禁止使用,也不能變成標簽。
- 用戶可以要求系統停止記錄和使用自己的行為數據。
- 不能長期保存和使用用戶的行為數據。以一年半為周期,數據超過一年半,備份也不允許,因為備份很可能會泄露出去。
實際碰到的隱私問題會更嚴重,比如朝陽區某個人xx歲,在xxx公司上班,如果對這個人較熟悉,對他有一定背景信息的了解,如果沒有對這個人做任何的PII,就非常容易根據信息把他定位出來,如果表格上面有這個人的月薪,該信息就泄露了。
互聯網大數據真正嚴重的問題,其一是稀疏行為數據的新挑戰。這里分享一個故事,Netflix曾經有一個100萬美金的推薦大賽,給的是每個人的觀影記錄,讓大家給新的影片打分,并預測新影片是否會受歡迎。有個人參加了這個比賽,他看到了一條記錄,關于ABC影片的觀影時間和評價,立刻反應出該記錄是由自己同事產生,同時,他發現除了這些觀影記錄之外,記錄里還有很多關于同性戀的電影。但該同事并不想讓別人知道自己在看同性戀相關的影片,當這位同事知道Netflix公司泄露了自己的隱私后,將Netflix告上了法庭。
因此,隱私的問題并不是指有人把用戶的信息賣出,而是指熟人之間的隱私,即甲對乙有一定背景信息的了解,同時甲正在不計成本地了解乙的隱私。
隱私是大數據頭上的達摩克里斯之劍,只是現在還未到爆發之時,大家也沒有技術手段去規避這種問題。很多科學家和數學家現在都在研究,怎樣在一個個性化的 系統里和數據交易里降低風險,但至今還沒有找到答案。但隨著大數據產業的發展,我們有理由相信,數據交易里未解決的定價和隱私問題,終有一天會得到很好的 解答。