海天瑞聲品牌升級 率先發力自動駕駛領域
原創近日,海天瑞聲宣布品牌升級,英文名稱改為“DataOcean AI”,同時啟用全新 Logo,全面進入 AI+領域,通過語音、圖像、文本全覆蓋,并且深入行業應用場景,賦能企業用戶,全方位助力 AI 前沿項目的全球商業落地。
海天瑞聲 CEO 王曉東強調,“此次品牌升級不僅是一個簡單的改名,還代表著海天瑞聲將在數據科技和人工智能領域的進一步發展和探索。過去海天瑞聲是語音 Speech 海洋,未來在人工智能領域是數據 Data 海洋。品牌升級后,海天瑞聲將更好地滿足客戶全方位的 AI 數據需求,共建 AI 未來!”
海天瑞聲 CEO 王曉東
品牌煥新,實現 AI 數據全覆蓋
海天瑞聲于2005年成立,起家時專注于智能語音數據。隨著近些年人工智能技術的快速迭代發展,海天瑞聲的業務已經從單純的語音數據服務,擴展至提供覆蓋語音、計算機視覺、自然語言處理和多模態的數據解決方案及成品數據集,未來還將支持以數據驅動的生成式 AI 業務發展。
為了打破市場對于海天瑞聲固有的語音業務印象,同時服務于客戶全方位的需求,海天瑞聲于近日完成了品牌煥新,中文名稱“海天瑞聲”保持不變,英文名稱將從“SpeechOcean”改成“DataOcean AI”,公司啟用全新的 Logo。
近年來,海天瑞聲的業務范圍在逐步擴大,但是海天瑞聲還是會堅持提供高質量的數據。王曉東強調,“海天瑞聲不僅具備開發、訓練和評估算法能力,還提供生成人工智能和大模型數據解決方案。但有一點永遠不會改變,我們致力于為客戶提供高質量的數據集和解決方案?!?/span>
據了解,海天瑞聲一直在為 AI 產業鏈上的各類機構提供 AI 算法模型開發訓練所需的專業數據集,目前這些數據集已覆蓋智能語音、計算機視覺、自然語言等 AI 核心領域。經過多年深耕,海天瑞聲的產品和服務已獲得阿里巴巴、騰訊、三星等國內外頭部客戶的認可,并在自動駕駛、虛擬主播、聲紋識別、人臉姿態等眾多人工智能場景及相關算法模型的訓練過程中獲得應用。
為了踐行推進數據資源整合共享的社會責任,海天瑞聲還宣布開放多模態數據集「DOTS-MM-0526」,覆蓋圖像、語音、文本等多個維度的數據集,免費開放給全球 AI 開發者和研究人員使用,共同推動人工智能技術的發展和落地。王曉東表示,“開源數據集可以幫助各領域的研究者和開發者快速獲得更多高質數據樣本,進而提高模型的精準度和魯棒性,幫助他們更好地進行算法研究和模型訓練,助力中國人工智能開放生態建設?!?/span>
深入行業,率先發力自動駕駛領域
自動駕駛是2020年至今,AI 基礎數據服務支出規模最大的細分行業,同時也是最具增長潛力的行業,主要數據采集需求包括車內駕駛艙以及車外道路環境感知等場景。但是,自動駕駛行業數據仍面臨諸多痛點,包括數據處理迭代速度無法滿足技術路線的飛速發展;人工標注效率低;項目多樣化,要求復雜,流程管理困難;數據安全合規趨于嚴格。
汽車領域,是海天瑞聲率先落地的戰略之一。海天瑞聲于4月18日推出了“DOTS-AD 自動駕駛平臺”。 據海天瑞聲 CTO 黃宇凱介紹,這是一款專為自動駕駛場景設計的全棧式數據平臺,能夠支持多維度、全方位的自動駕駛標注任務,數據標注效率提升高達8倍,可支持萬人同時作業,能夠解決項目經理和標注員的使用痛點,提升標注效能,且支持多元化部署,包括公有云、私有云和混合云部署模式。
海天瑞聲 CTO 黃宇凱
值得注意的是,DOTS-AD 自動駕駛平臺具有四大核心功能:一是全面支持自動駕駛領域各維度2D/3D/4D 點云或圖像數據標注;二是能針對不同場景支持輔助標注/自動化標注;三是支持項目的柔性管理,支持流程/工具/標簽的自定義;四是可實現對數據的智能化管理,確保客戶的商業敏感數據安全合規?;谶@些核心功能,海天瑞聲正建立起在智能駕駛數據訓練領域的核心壁壘,也將賦能自動駕駛技術走邁向新高度。
黃宇凱表示,“希望通過 DOTS-AD 自動駕駛平臺,能夠賦能自動駕駛企業的算法高效量產,讓每一個輛車更智能、更安全地行駛在世界的每個角落。”
大模型訓練中的數據價值
去年年底以來,隨著 ChatGP 的發布以及之后各種大模型的出現,讓我們加速走進了大模型時代,并真切地感受到了其與日俱增的能力。眾所周知,大模型也需要進行訓練,那么在此過程中與數據相關的工作,與此前有什么不同呢?
對此,黃宇凱認為,從大方向上來看并沒有什么不同,還是需要先提出數據方案,然后進行設計,再執行采集、標注等一系列的工作流程,最終目標也是讓客戶能夠基于所提供的數據,訓練出效果良好的模型。
其中,不一樣的地方在于,不同企業關注的側重點不同。比如,大模型主要分為預訓練和強化學習兩個階段,這兩個階段對數據都有很高的要求。就前者而言,雖然大模型對應的是大數據,但并不是數據越多越好,還要執行數據清洗的步驟。數據公司必須掌握如何清洗、向哪個方向清洗,才能更好地應用于大模型的基礎能力。對于后者來說,進行強化學習需要撰寫對應的提示詞,這對數據標注人員的邏輯思維能力和表達能力也有較高的要求。
對于一家數據公司來說,數據安全與合規是其底線,也是立身之本。因此,海天瑞聲組建了專門的團隊,對歐盟頒布的《通用數據保護條例》、我國頒布的《數據安全法》和《個人信息法》等法規進行了深入的研究,并制定了高于國家法律的數據合規要求。具體來說,其在整個公司層面上,要求所有成員在嚴格遵循當地法律法規的基礎之上,開展包括數據采集、標注等在內的具體工作。