AI重塑媒體行業,鳳凰衛視重磅入場AI數據賽道
媒體人在2023年或多或少都有點“失業”焦慮——媒體人被認為是最可能被ChatGPT取代的高危職業之一。
面對人工智能的沖擊,部分媒體選擇以防御之態應對,保護自己的內容不受大語言模型的“侵略”。根據《衛報》的報道,CNN、紐約時報和路透社等多個媒體巨頭在他們的網站上加入了新的代碼,阻止OpenAI的網絡爬蟲工具GPTBot對平臺內容的掃描。
然而,近日鳳凰衛視在“數聚未來——鳳凰大模型數據研討沙龍”上正式推出“鳳凰智媒AI數據業務”,發布首批“中文訪談對話數據集”和“正向價值對齊數據集”,還將推出以數據為中心的一站式AI訓練平臺,計劃于近期開放內測。鳳凰衛視執行副總裁兼運營總裁李奇在致辭中表示,鳳凰衛視作為一個立足香港、背靠內地、面向全球發展的國際媒體,也將是人工智能時代的積極參與者,期望發揮鳳凰的媒體平臺優勢,為產業界建立一個共建共享的數據平臺,共同推進人工智能的快速發展。
在媒體行業感受到人工智能帶來的高度生存威脅之際,鳳凰衛視嘗試在“桌上”找到自己的位置。
數據對于大模型訓練有多重要?
AI的三大基石:數據、算力和算法。
數據是人工智能的學習資源,沒有學習資源,任何智慧體都很難學習和提升。
數據的開發與應用并非易事。在香港科技大學(廣州)協理副校長熊輝看來,中國大模型面臨的真正挑戰是數據。雖然國內大模型在中文數據上占有優勢,但整體的中文數據在整個人類知識的數據體系中僅占很小一部分,中國大模型如何能夠真正做到跨語言體系、跨文化體系,構建起高價值、高質量、全方位的數據集,仍然面臨較大挑戰。
李奇將數據比作AI時代的石油資源,數據的資源越好,模型的準確度就越高。而數據的開發與應用都將是一個系統工程,需要產業界無數企業共同參與。
鳳凰衛視早已敏銳地認識到數據對于人工智能的重要性。鳳凰衛視融媒體研發副總監經理馮偉就表示,在ChatGPT引領的AIGC浪潮之前,鳳凰衛視在與眾多互聯網大廠和科研院校的合作交流中,他們收到許多對高質量數據需求的反饋——沒有高質量的數據,很難在特定垂直行業的應用場景中實現算法和模型性能的突破。
高質量的數據對于人工智能的益處是多方面的。首先,它能夠顯著提高人工智能的準確性和可靠性,使模型在實際應用中更加安全。其次,高質量的數據可以提高模型的魯棒性,使其在各種場景下都能表現出色,甚至是在訓練過程中未曾遇到過的場景。此外,高質量的數據還可以幫助人工智能模型克服算法的局限性,通過數據中的隱含規律來指導模型的學習過程。
因此,在AIGC浪潮的驅動下,鳳凰衛視著手入場AI數據賽道。
傳統媒體如何連接AI?
近百年來,媒體經歷了數次變革。
廣播和電視的普及、互聯網的出現、社交媒體的興起……每一次新技術的出現,都給媒體行業帶來深刻的變革,這些變革不僅改變了媒體行業的運作方式,也深刻影響了人們的生活方式和信息傳播的方式。
人工智能技術來勢洶洶,媒體已然嗅到了變革,甚至是危機的氣息。擁抱還是防御,對各媒體都是一個問題。
而鳳凰衛視的選擇已然明了。
此次發布的“中文訪談對話數據集”基于鳳凰衛視訪談類節目生成,規模達百萬輪次,連續對話的平均輪次超30輪次。“正向價值對齊數據集”的構建則以權威學術團隊的研究成果為指導,由鳳凰衛視專業內容團隊人工撰寫而成,規模達十萬個問答對。
除上述兩個數據集外,鳳凰數據還有多個數據集正在加工生成中,包括面向財經領域的評論數據集、面向視頻內容理解領域的視頻問答數據集、面向數字人領域的談話動作數據集和語音合成數據集等。同時,鳳凰數據也在同相關數據伙伴共同構建具有高價值和稀缺性的高質量數據集,包括華語圖文對數據集、華語書籍數據集和網絡流行語數據集。
除了高質量數據集產品外,鳳凰數據還將推出以數據為中心的一站式AI訓練平臺,計劃于近期開放內測。平臺將與高質量數據集市實現互聯互通,確保數據在平臺內的安全使用。平臺也將提供一系列以數據為中心的服務,包括豐富的數據處理工具、可視化模型訓練和微調套件、全面的數據和模型評估框架和多云異構的算力資源。
鳳凰衛視一直以來以其客觀中立的節目內容受到廣泛認可,這些數據為大模型企業提供客觀、公正、可靠的數據支持。其一站式解決方案除高質量數據外,配套提供AI模型訓練與優化平臺,降低了鳳凰衛視AI數據使用門檻。
華為云EI產品部部長尤鵬表示,華為希望和鳳凰衛視一起共建數據黑土地,共同探索產業界自下而上的數據合作路徑和商業模式,共同構建大模型的“數據-算力-商業”飛輪,推動數據產業發展。
媒體數據對大模型訓練的價值不言而喻,但對鳳凰衛視而言,這一系列舉措的價值在哪兒?
入局AI數據賽道,價值幾何?
鳳凰衛視大刀闊斧地進軍AI數據賽道,比起今年七月美聯社與OpenAI的合作,是媒體行業探索生成式AI領域的更進一步。
此前,大模型同新聞組織、書籍作者、社媒平臺之間在內容版權方面矛盾頗多。今年6月,超過4000名作家聯名向OpenAI、谷歌、微軟、Meta和其他AI開發者的首席執行官們致信稱,科技巨頭們在構建聊天機器人時存在侵權行為,那些AI機器人“模仿并復述”他們的語言、風格和思想。
在技術偏早期野蠻生長的階段,一定會面臨許多諸如內容版權之類的問題。馮偉在接受采訪時表示,就像當年新聞平臺方的出現同媒體機構和其他內容創作者之間也存在版權或知識產權的爭議和矛盾,但逐漸也形成了新的共識與規范。鳳凰衛視相信,隨著技術的發展、各方的協調以及法律法規的不斷完善,AIGC行業最終也會往合規的方向健康發展,逐漸形成一個有序、共贏共生的大生態。
除了在探索有序、共贏共生的大生態中為媒體爭取更多話語權,鳳凰衛視更希望以積極主動擁抱世界發展趨勢的態度,為中華文化的傳播提供AI時代的解決方案。
入場AI也是鳳凰大刀闊斧創新國際傳播的重要舉措。鳳凰衛視作為海外最大的華語媒體集團,一直都在為中國與世界對話、中國與世界交流搭建平臺。正像鳳凰衛視執行副總裁兼運營總裁李奇致辭中所說,在AI時代,鳳凰衛視也同樣不會缺席。馮偉表示,高質量的數據語料庫是AI時代承載中華文化的新載體,鳳凰數據的核心目標是是推動AI數據領域華語數據的豐富與共享,同時為中華文化的傳承與傳播提供AI時代的探索思路和解決方案,讓AI與中華文化認知對齊更簡單。
寫在最后
據悉,2024年,鳳凰數據計劃分三批發布更多高質量數據集,并正式上線AI訓練平臺。同時,鳳凰數據還將舉行“Link+科技峰會”和“AI數據挑戰賽”等系列活動,連接各界,解決行業痛點,共同推進AI與華語文化的認知進程。面向高校及科研院所,鳳凰衛視發布了“鳳凰智媒AI筑巢計劃”,提供部分數據集的免費授權,以助力學術研究和創新。鳳凰AI數據官網于發布會當天正式上線,為行業客戶提供數據集試用下載服務。
在科技的滾滾車輪之下,有人坐以待斃,有人主動出擊。鳳凰衛視在AI賽道的一系列舉措是面臨危機的媒體行業一次非常有借鑒意義的主動探索。同為媒體,我們期待看到鳳凰衛視與全球合作伙伴共同推動AI數據領域的創新與發展。