成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

淺析數據工程

原創
開發 架構
在這個大模型的時代, 企業的數據工程中要融入面向大模型的數據架構,在數據產生時完成自行標注,同時輔之以數據服務商提供的數據,將大模型作為默認選項形成自己的領域模型。

目前數字化轉型對于市場來說并不是一個新鮮事物,從技術視角來看,盡管大模型的涌現帶來人們的更多關注,但人工智能與大數據相關技術仍處于創新階段,各行業正在尋找和探索價值場景與新興技術融合的平衡點,希望在新興技術的加持下能夠在激烈的競爭中占據有利位置。

數據,數據

數據是新一代技術革命下的生產要素,掌握了生產要素與生產要素的加工方式就是掌握了數字經濟下的價值密碼,這已經是業界的基本共識。

企業想要更好地管理數據并利用數據,就必須了解數據在現代企業中的產生源頭、組織形態等。企業數字化轉型一般分為三個階段:

圖片圖片

從數據產生到數據價值落地的過程中,數據的信息密度越來越高,其中蘊含的知識也越來越豐富。通過分析企業數據全流程,企業可以抓住重點環節,因地制宜制定落地規劃,數據 全流程分析是每個企業在進行數據工程落地的前提。

數據工程

從軟件開發出現到軟件開發逐步規模化的過程中, IT 從業者 們一點點積累下關于需求、設計、實現、測試、運維等方面的工作最佳實踐。數據在企業內部流轉會經歷多個階段,而每個階段之間還存在著各種各樣的問題。

圖片圖片

數據工程則是幫助企業高效地挖掘數據價值,持續地賦能業務增長, 加速數據到資產的升華過程的最佳實踐。

數據工程包含了需求、設計、構建、測試、維護演進等階段,涵蓋了項目管理、開發過程管理、工程工具與方 法、構建管理、質量管理, 是一套為了應對規模化生產和使用數據、為業務提供數據支撐, 最終產生價值的體系。

  • 數據工程是一套體系
  • 數據工程是用來加速數據到價值過程的規模化最佳實踐
  • 數據工程是軟件工程的一部分
  • 數據工程不是傳統軟件工程在數據領域的簡單重現

對于企業來說,數據工程包括三個戰略環節:數據愿景對齊、數據工程落地實施、數據持續運營。

圖片圖片

愿景對齊的第一步是通過定義、統一業務價值度量框架來識別業務價值場景。探索出的業務價值場景需要包含場景的背景、價值點、 所涉及的用戶、需要什么樣的能力、用戶旅程、所涉及的實體、風險等信息。

落地過程就如同孕育新生命一般,其中數據梳理規 劃藍圖,數據架構設計規劃骨架,數據模型設計構成器官,數據接入則賦予信息感知能力,數據處理構成中樞 大腦, 測試、安全部分負責為新生兒提供保護, 每個步驟相互依賴, 缺一不可,通過數據梳理、數據架構設計、數據接入、數據處理、數據測試、數據安全和能力復用與保障七個步驟來實現數據工程落地。

數據運營的目的是要形成企業看數據、用數據、將數據作為溝通語言和工具的“數 據文化”,數據只有容易被發現,才有產生價值的可能性。

數據工程人員的能力模型

數據工程的落地,歸根結底還是需要由人來完成。構建企業自身的人員能力培養機制、 搭建企業人員數據能力提升通道是數據工程能力持續迭代的重要保障。

數據工程師能力模型如下:

圖片圖片

數據產品經理的能力模型如下:

圖片圖片

數據分析師的能力模型如下:

圖片圖片

數據工程是數字經濟下確保數據價值轉化的重要保障,是加速數據轉化為價值的重要手段,需要應對未來數字經濟的大趨勢。為了處理數據領域的各種新問題, 各種新技術、新概念逐漸涌現, 現代數據倉庫、數據湖、湖倉一體、分布式數據架構、機器學習、數據云原生等逐一登上舞臺。

數據工程的工具圖譜

數據工程是咨詢公司Thoughtworks 給出的概念, 但仍然是新瓶裝舊酒, 個人可以認為,可以映射成傳統意義上的數據治理。對于數據治理而言,已經有相對成熟的體系, 下面是數據治理的工具全景圖:

圖片圖片

特別地, 對AI計算的能力支撐工具圖譜而言,如下圖所示:

圖片圖片

大模型與數據工程

人工智能發展的突破得益于高質量數據的發展,數據是大模型競爭的關鍵要素之一,大模型的訓練需要高質量、大規模、多樣性的數據集,而優質中文數據集是稀缺的。行業數據的價值很高,具有優質數據和一定大模型能力的公司或通過行業大模型賦能業務。

未來數據成本在大模型開發中的成本占比或將提升,主要包括數據采集, 清洗, 標注等成本。在模型相對固定的前提下,通過提升數據的質量和數量可以提升整個模型的訓練效果。以數據為中心的AI工作流如下圖所示:

圖片圖片

從 GPT- 1 到 LLaMA 的大語言模型數據集主要包含六類:維基百科、書籍、期刊、Reddit 鏈接、 Common Crawl 和其他數據集。多模態大模型需要更深層次的網絡和更大的數據集進行預訓練。過 去數年中, 多模態大模性參數量及數據量持續提升。例如, 2022 年 Stability AI 發布的 Stable Diffusion 數據集包含 58.4 億圖文對/圖像,是 2021 年 OpenAI 發布的 DALL-E 數據集的 23 倍。

國內各行業數據資源豐富,2021-2026 年數據量規模 CAGR 高于全球,數據主要來源于政 府/傳媒/服務/零售等行業。據 IDC ,2021-2026 年中國數據量規模將由 18.51ZB 增長至 56.16ZB ,CAGR 達到 24.9%,高于全球平均 CAGR。盡管國內數據資源豐富,但由于數據挖掘不足,數據無法自由在市場上流通等現狀,優質中文優質數據集仍然稀缺。

百度“文心”大模型訓練特有數據主要包括萬億級的網頁數據,數十億的搜索數據 和圖片數據等。阿里“通義”大模型的訓練數據主要來自阿里達摩院。騰訊“混元”大模 型特有的訓練數據主要來自微信公眾號,微信搜索等優質數據。華為“盤古”大模型的訓練數據公開數據外, 還有 B 端行業數據加持,包括氣象, 礦山, 鐵路等行業數據。商湯 “日日新”模型的訓練數據中包括了自行生成的 Omni Objects 3D 多模態數據集。

因此,在這個大模型的時代, 企業的數據工程中要融入面向大模型的數據架構,在數據產生時完成自行標注,同時輔之以數據服務商提供的數據,將大模型作為默認選項形成自己的領域模型。

拭目以待!

責任編輯:武曉燕 來源: 喔家ArchiSelf
相關推薦

2009-07-23 14:31:20

ASP.NET MVC

2009-07-14 14:48:37

MyEclipse開發

2023-11-12 21:49:10

Redis數據庫

2009-09-17 10:57:06

Linq隨機讀取數據

2009-06-17 14:55:26

Hibernate數據

2009-07-15 16:42:03

iBATIS讀寫CLO

2009-07-06 19:38:58

Sybase數據災難

2012-12-28 14:03:24

2021-05-07 17:39:44

數據管理IT運營

2013-02-28 23:34:39

云數據虛擬化明朝萬達

2011-03-30 09:28:34

MySQL數據碎片

2018-02-02 13:58:59

數據存儲

2009-01-20 09:22:09

NGN下一代網絡電信

2010-04-16 12:57:20

Spatial數據加密

2011-04-13 13:05:14

重復數據刪除

2013-05-03 00:41:57

大數據NoSQL

2015-08-06 15:20:21

runtimeIOS開發

2010-10-08 09:38:55

Android數據庫事

2017-12-26 14:59:08

數據中心數據流動數據

2016-12-29 20:05:56

數據可視化大數據產品分析
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 男女爱爱网站 | 欧美日韩亚洲一区 | 久久免费视频在线 | 粉嫩av久久一区二区三区 | 九色视频网站 | 欧美激情国产日韩精品一区18 | 中文字幕欧美日韩一区 | 欧美中文字幕一区二区 | 欧美视频二区 | 久久麻豆精品 | 欧美二区三区 | 欧美啪啪网站 | 97操操 | 欧美一区二区在线观看视频 | 午夜免费| 99在线免费观看 | 91精品国产综合久久精品 | 成人久久18免费网站麻豆 | 精产国产伦理一二三区 | 国产日韩精品视频 | 综合久久色 | 一区二区在线不卡 | 欧美一区二区三区在线看 | 人人干97| 日韩在线中文字幕 | 日韩欧美在线播放 | 欧美aaaa视频 | 欧美激情久久久 | 亚洲欧美日韩在线一区二区 | 亚洲免费在线观看av | 丝袜美腿一区二区三区 | 在线一级片 | 久久精品一级 | 午夜视频大全 | 日韩三级 | 粉嫩粉嫩芽的虎白女18在线视频 | www.亚洲.com| 亚洲区一区二 | 久久99精品久久久97夜夜嗨 | 宅女噜噜66国产精品观看免费 | 精品91久久 |