揭秘中國數據庫研究鮮為人知的那些事
近日,中國數據庫技術大會會務組宣布,將與中國計算機學會數據庫專委會(CCF-TCDB)合作,在2015年第六屆數據庫技術大會上首次開設學術前沿專場,產學研并重,本屆大會將不僅關注國內數據庫技術的行業應用與技術實戰,也將關注國內最新的數據庫學術研究成果及世界先進數據庫技術的動態,這是國內其它數據庫商業會議從未有過的。針對此次合作,IT168老魚在第一時間專訪了中國計算機學會數據庫專委會秘書長孟小峰教授。
與孟小峰教授會面約在2月4日上午10:30,地點在中國人民大學理工配樓103A的辦公室里。這個時候學校已經放假,學生們大都已離?;丶疫^年,往日喧囂的校園則顯得有些冷清,孟小峰卻相當享受這種安靜的環境,可以捧著一本厚厚的大部頭書《事務處理》盡情的閱讀和思考,而不必擔心受到任何打擾。在2個小時的專訪過程中,孟小峰隨和且健談,但言談間又不失學者那種嚴謹,語速不快,每一字一句顯然都是經過深思熟慮,不過孟小峰卻并不回避問題,在談到數據庫專委的故事與大數據話題時,話匣子一下就打開了。
“淺淺的知識比無知更使人栗六不安,深深的知識使人安定,我們無非是落在這一片深深淺淺之中”。木心的語言總是那么平靜而深邃。這是孟小峰在2014年WAMDM實驗室年報開篇序言的第一段。學者以知識為本位,一個真正的學者對知識應保持著敬畏之心,而孟小峰正是這樣的一個人,作為一個多年從事數據庫研究的學者,孟小峰身上所體現的科研態度、創新意識、社會責任發人深省。
對數據庫專委的成績,中國計算機學會理事長、清華大學鄭緯民教授是這樣評價的:“全國數據庫學術會議一直是中國計算機學會中辦的規模最大、參會人數最多、組織最為規范、影響最為廣泛的活動之一,為中國數據庫事業的發展做出重要貢獻。”
面對這樣高度的褒獎,孟小峰既自豪又感概!感概中不難感受到他對數據庫專委老一輩學者的感激與敬佩之情,他表示,中國數據庫學術研究的興起有兩個重要階段,70年代剛剛起步,90年代才有了真正的學術繁榮,數據庫在那個年代作為小字輩的學科,在一窮二白的艱苦條件下,正是由于老一輩學者們對于事業無比的執著,才能把中國數據庫學術會議(NDBC)32屆連續不斷的辦下來,這是十分不易的事情。
孟小峰特別強調薩師煊、周龍驤、羅曉沛、施伯樂等老一輩學者的名字,是數據庫乃至整個學術界都值得記住并尊敬的人,正是他們為我國數據庫學科的人才培養和技術發展作出了開創性的貢獻。
對于我國數據庫學術研究水平與應用水平極不平衡的現狀,大眾槽點集中的數據庫產業化等問題,孟小峰則顯得頗為無奈,他表示從數據庫學術研究水平看,我們在數據庫國際頂級學術會議上發表論文已經形成系統、規模,與國際水平接軌。但在應用上則是一個軟肋!這不可回避,也做過反省研討,我們甚至不如韓國,當然這其中有我們自身的問題,也有歷史的因素。孟小峰接著表示,我們這一輩人由于歷史的局限性,這個問題只能交由未來年輕一代來解決。
當下普遍熱衷于用開源代碼修改直接使用,孟小峰也發表了自己的看法,孟小峰認為其有利有弊。由于當下流行的開源軟件多不是由我們原創的,因此某種程度上它抑制了我們真正掌握核心技術和創新的能力,主動權其實還是掌握在歐美手里。
而在談到與中國數據庫技術大會(DTCC)結緣,孟小峰表示產業界不能站在更高的角度來看問題,就無法看清問題的深度,更無法引領趨勢和未來。沒有對于事物本質的理解,就會在內心產生一種不安。能夠參與2015年第六屆中國數據技術大會,真的是一件很好的事,也給了我們研究的動力,這是一個具有很強互補性的合作交流,有助于將研究和實踐有機結合。國外學術界和產業界的交流比國內有優勢,學者和業界人員基本可以“無縫鏈接”,他們的溝通沒有障礙,學術成果可以很快為業界人員吸納和轉化,這與國外業界普遍水平較高有關,學界的最新研究成果和動態他們同樣了如指掌。
以下來自IT168對中國計算機學會數據庫專委會秘書長孟小峰教授的采訪實錄。
IT168老魚(Q1) :您好,孟小峰秘書長。很高興有機會采訪到您。中國計算機學會數據庫專業委員會是1999年于蘭州成立,這些年數據庫專委會都做了哪些工作?取得了什么樣的成績?
孟小峰:我們國家數據庫研究始于70年代。1977年老一輩的學者在安徽黃山會上,在中國計算機學會軟件專業委員會下成立了數據庫學組。專門致力于教學、科研等等。以薩師煊教授為領頭人,編寫了一批有代表性的教材,學術界出現了培養數據庫人才的繁榮景象。引領了一個時期數據庫研究教學的興起。到1999年,數據庫學組由三級組織升級為二級組織叫做數據庫專委會。最近我們在學會組織的每年一度的評估報告中,將專委的發展歸結為如下的三個階段:初創時期(1977-學組)夯實基礎;成長時期(1999-專委)快速發展;成熟時期(2009-)質量提升。這是數據庫幾代人努力的結果,特別是創始的老一輩學者憑借“團結、執著、瀟灑”的精神鑄就了當下的數據庫偉業。
數據庫專委會的工作職責有3點:學術交流,人才培養,政府咨詢。
數據庫專委會從1977年到2014年間,已經連續舉辦了31屆中國數據庫學術會議,今年是第32屆,從會議屆數來看,至少據我所知,沒有一個學術會議的屆數能夠超過于此。這是老一輩學者持之以恒所創立的學術氛圍,面對困難能不屈不撓、堅韌不拔的意志和精神,這是數據庫專委最大的財富。
對數據庫專委的評價,中國計算機學會副理事長、清華大學鄭緯民教授指出,全國數據庫學術會議一直是中國計算機學會中辦的規模最大、參會人數最多、組織最為規范、影響最為廣泛的活動之一,為中國數據庫事業的發展做出重要貢獻。他同時指出,國內數據庫屆近年做到了持續不斷地在國際頂級數據庫會議上發表論文,整體研究水平不斷提升,為我國數據庫的發展做出重要貢獻。數據庫專委也連續6次被評為中國計算機學會優秀專委。
中國計算機學會數據庫專委會上屆主任、中國工程院院士、北京大學何新貴教授將數據庫專委的使命總結為二十字真言:“團結同行、交流學術、發展學科、培養人才、服務國家”。數據庫專委將以此為辦會宗旨,繼承薩師煊老師的遺志,繼續把數據庫事業推向新的高度。
IT168老魚(Q2) :數據庫專委會能取得這些不俗的成績,如三十多屆會議連續辦下來,堅持下來,您認為有哪些經驗值得總結?今后的工作重點是什么?
孟小峰:數據庫專委會能有今天的成績,這與老一輩學者打開良好的局面是分不開的,正是因為老前輩們所創立的良好學術氛圍和堅韌不拔的意志傳承,才推動了幾代學者把這項事業做到現在,有了今天的成就。
數據庫學術研究興于70年代,90年代有了真正的大發展,數據庫當時作為小字輩的學科,正是由于老前輩們對于事業的無比執著,才能把會議連續幾十屆的辦下來,這是十分不易的。我國數據庫的發展得益于始于九十年代初的國家八五科技攻關項目國產數據庫系統COBASE的研發,它從根本上使我國科研人員掌握的數據庫系統的核心技術,鍛煉了隊伍,為我國數據庫的發展打下堅實的基礎。
NDBC與世界頂級數據庫學術會議VLDB(VLDB會議是國際上著名的數據庫學學術會議,素有數據庫理論與技術研究“風向標”、“數據庫界的奧林匹克”之稱,是數據庫管理領域最杰出的研究和發展成果的實時傳播場所)也不差幾屆,他們是1975年舉辦首屆到現在也是三十多屆。
2015年數據庫專委的工作重點概括起來是“兩會一刊”,兩會一指提高全國數據庫會議(NDBC)的學術質量,加強分組報告的質量,進一步擴大影響力;二指積極拓展和工業界的合作,以指導單位參與2015中國數據庫技術大會(DTCC);一刊則擬創辦專委會主辦的國際刊物,刊物宗旨為大數據慣例的新理論、新方法、新技術,出版方式擬由Springer出版Data Science and Engineering(DSE),出版計劃為每年4期。
IT168老魚(Q3) :在過去的幾十年中,中國數據庫領域的研究和應用從無到有發展壯大起來,您認為我們國家數據庫技術學術研究與應用分別處于一個什么樣的水平?有哪些優勢和不足?
孟小峰:從學術研究上講,我們在國際(數據庫)頂級學術會議上發表論文,已經成系統、成規模的態勢,與國際水平基本接軌。中國學者在數據庫三大會議的發文持續增長,已可以排在第二位。
但在應用上是我們的一個軟肋!我們國家對數據庫系非常重視,在 “八五”、“九五”期間,國家科技攻關計劃設立了科技攻關課題“國產系統軟件開發”,而“數據庫管理系統開發”是該課題的一個專題。專題的攻關目標是開發具有自主版權的關系數據庫管理系統,該數據庫管理系統稱為“COBASE”。 “COBASE”是用C語言編寫的源代碼約20萬行,每一行源代碼都是自己編寫的。雖然“COBASE”獲電子工業部科技進步特等獎(1996年),獲國家科技進步二等獎(1998年),但產品化和產業化是個嚴重的問題,是個迫切需要解決的難題。
當然這有我們自身的問題,這不可回避,也做了探討和努力。當下普遍熱衷于用開源代碼修改直接使用,其有利有弊。由于當下流行的開源軟件多不是由我們原創的,因此某種程度上它抑制了我們真正掌握核心技術和創新的能力,主動權其實還是掌握在歐美手里。
讓我們驚訝的是,在去年2014年中韓數據庫技術論壇上,我們發現韓國竟然有不下十家,乃至幾十家的數據庫廠商,這些廠商之間形成了產業聯盟,這完全不是政府主導的。他們的協會為廠家盡可能提供力所能及的幫助,形成良性機制。相比來說,我們從提出國產系統,到2002年國家發文18號文件,政府做了大量工作,但是對于產業來說,竟然比不上韓國,這值得我們深思。
中國的未來由你們這代或者更后面的人來完成。最近我看了一條微信(劉睿民:數據庫國戰時代,我不跟你們玩政治)非常震驚。這樣的年輕人有這樣的抱負,我們應當給與道義上的支持。我覺得年輕人就是該有闖勁,他是一個代表,有著在國際公司工作的經驗。只要能真正創造出屬于我們自己的數據庫產品,我覺得也不能用原來(非)國產的概念來狹隘地定義。不能簡單的說技術無國界,美國將我們的華為拒之門外,是完全沒有道理的,有悖于他們自己的價值理念。但就其根本,還是因為我們自身的技術不夠強大。為什么拒絕華為?他們有其它的選擇,也為了保護思科。但假設我們擁有超越思科的技術,對方是沒有可能拒絕我們的產品的。
IT168老魚(Q4) :如今大數據熱火朝天,您對大數據怎么看?
孟小峰:已故的圖靈獎得主Jim Gray在其《事務處理》一書中提到:6000年以前,蘇美爾人(Sumerians)就使用了數據記錄的方法,已知最早的數據是寫在土塊上,上面記錄著皇家稅收、土地、谷物、牲畜、奴隸和黃金等情況。隨著社會的進步和生產力的提高,類似土塊的處理系統演變了數千年,經歷了殷墟甲骨文、古埃及紙莎草紙、羊皮紙等。19世紀后期,打孔卡片出現,用于1890年美國人口普查,用卡片取代土塊,使得系統可以每秒查找或更新一個“土塊”(卡片)??梢?,用數據記錄社會由來已久,而數據的多少和系統的能力是與當時的社會結構的復雜程度和生產力水平密切相關的。
隨著人類進入21世紀,尤其是互聯網和移動互聯網技術的發展,使得人與人之間的聯系日益密切,社會結構日趨復雜,生產力水平得到極大提升,人類創造性活力得到充分釋放,與之相應的數據規模和處理系統發生了巨大改變,從而催涌了當下眾人熱議的大數據局面。
從數據庫到數據管理積累這么多年,形成了完善的理論、方法、系統。大數據對我們而言不是神兵天降,它是歷史發展的必然。根本的一點是數據的產生方式發生了變化,即由過去的被動產生、主動產生到自動產生,應用的需求發生了巨大的變化,急需新的數據管理技術應對這一局面。
IT168老魚(Q5) :以往我們很少看到學會在商業會議上以學術專場的形式露面,為什么這次會選擇與數據庫技術大會合作開設學術專場?是基于一種什么樣的考慮?
孟小峰:有時候一心搞開發,沒有站在更高的角度來看問題,就無法看到問題真正的深度。沒有對于事物本質的理解,就會在內心產生一種不安。
過去30年,數據庫專委在學術方面認真耕耘,我們的NDBC會議內容非常豐富,包括研究生學術輔導報告、大會報告、專題報告、新進展報告、企業新技術報告、分組報告以及系統演示等。
但學術研究不能建立在空談和虛妄的需求之上,需要產學研相結合,從企業或市場汲取營養,同時展示新的研究成果。
看到數據庫技術大會已辦了六屆,規模越來越大,國內數據庫有如此龐大的開發隊伍,感到十分驚喜。數據庫專委前主任王珊老師也多次到會指導,因此,這次能夠參與技術大會,真的是很好的事,專委應該致力于中國數據庫應用水平的提高。這是一個有著很強互補性的交流,能夠將學術研究和應用實踐有機結合,促進我國數據庫事業的發展。
IT168老魚(Q6) :您能否為我們參會者提前透露下,這次數據庫專委會在2015中國數據庫技術大會(DTCC)上開設的學術專場將會有那些嘉賓到場,演講嘉賓及演講主題都是什么呢?
孟小峰:面對不斷涌現的大數據應用,數據庫乃至數據管理技術面臨新的挑戰。傳統的數據庫技術側重考慮數據的“深度”問題,主要解決數據的組織、存儲、查詢和簡單分析等問題。其后,數據管理技術在一定程度上考慮了數據的“廣度”和“密度”問題,主要解決數據的集成、流處理、圖結構等問題。大數據管理是要綜合考慮數據的“廣度”、“深度”、“密度”等問題,主要解決數據的獲取、抽取、集成、復雜分析、解釋等技術難點。因此,與傳統數據管理技術相比,大數據管理技術難度更高,處理數據的“戰線”更長。
我們會分享關于大數據管理的理解與經驗,希望能在理論、系統、新的架構下,來展示新的研究成果,進而提供一些對當下大數據的理解與思考。我們將邀請學有專長、年富力強的專委委員到會與大家交流。我相信來自專委的學術前沿報告會在DTCC大會上引起關注。