國家標準委正在著手制定首批共十項大數(shù)據(jù)標準,分別是大數(shù)據(jù)術語、大數(shù)據(jù)技術參考模型、數(shù)據(jù)交易平臺交易數(shù)據(jù)描述、數(shù)據(jù)交易服務平臺通用功能要求、數(shù)據(jù)能力成熟度評價模型、多媒體數(shù)據(jù)語義描述要求、科學數(shù)據(jù)引用、數(shù)據(jù)溯源描述模型、數(shù)據(jù)質量評價指標和通用數(shù)據(jù)導入接口規(guī)范。
大數(shù)據(jù)產(chǎn)業(yè)
大數(shù)據(jù)企業(yè)如何發(fā)展,市場正在做出自己的選擇。
8月末,北京某酒店的一場大數(shù)據(jù)企業(yè)展上,聚集了全國各地的企業(yè)?,F(xiàn)場展示有隨著《江南style》起舞的機器人,有早期科幻電影里走出來的“觸摸式數(shù)據(jù)可視化屏幕”……
“你們的具體業(yè)務是做什么的”、“和大數(shù)據(jù)有什么關系”……和直觀的服裝展、美食展不同,大數(shù)據(jù)行業(yè)作為當下的風口新業(yè)態(tài),其行業(yè)標準、商業(yè)模式正在探索中,參展的大數(shù)據(jù)企業(yè)們,以各種可視化的方式,把大數(shù)據(jù)產(chǎn)業(yè)的最新成果展示給觀眾。這場活動吸引了大批企業(yè)和研究人員,其中還包括自費從國外過來學習的教授。
中國的人口數(shù)量,讓其成為大數(shù)據(jù)大國,但卻不是生來的大數(shù)據(jù)強國。國內大數(shù)據(jù)市場正在經(jīng)歷炒作、探路和實踐期。采訪發(fā)現(xiàn),今年的大數(shù)據(jù)行業(yè)聚會,探討的內容已經(jīng)從2014年的數(shù)據(jù)是什么,發(fā)展到大數(shù)據(jù)產(chǎn)業(yè)的商業(yè)模式怎么做。
從業(yè)務定位到市場開發(fā),從產(chǎn)品生產(chǎn)到服務提供,大數(shù)據(jù)企業(yè)的發(fā)展還處于初始階段。在大數(shù)據(jù)生態(tài)圈里,看上去很美的商業(yè)價值,已經(jīng)吸引了一批創(chuàng)業(yè)者,將之視作彎道超車BAT的最大機遇;也有傳統(tǒng)企業(yè)和行業(yè)巨頭借勢圈地擴張,寄望完成轉型和整合。有學界和業(yè)界人士預測,大數(shù)據(jù)已經(jīng)從概念炒作走向了穩(wěn)步發(fā)展時期。另外,8月份出臺的促進大數(shù)據(jù)產(chǎn)業(yè)發(fā)展行動綱要,系列鼓勵和規(guī)范政策正在密集出臺中。在大數(shù)據(jù)這個具體政策和標準近乎空白,正在野蠻生長的大數(shù)據(jù)產(chǎn)業(yè)生態(tài)鏈中,通過采訪大數(shù)據(jù)產(chǎn)業(yè)生態(tài)鏈上的各類企業(yè),摸底大數(shù)據(jù)產(chǎn)業(yè)的商業(yè)化落地進程。
應用行業(yè)參差不齊
“掃碼送牛奶”、“掃碼送雨傘”……進入2015年,從中關村地鐵站出來,簇擁圍住你的人群,不再給你發(fā)傳單,而是各類APP掃碼推廣。APP推廣的大量聚集,讓這里被戲稱做“掃碼一條街”。
在大數(shù)據(jù)被各方合力推上風口的當下,這些APP推廣工作人員會介紹,這款應用是基于某領域海量數(shù)據(jù)庫的處理和分析的產(chǎn)品。在很多新上線APP的宣傳里,“數(shù)據(jù)為王”,“企業(yè)對大數(shù)據(jù)的態(tài)度決定未來的高度”,類似的說法越發(fā)常見。事實上,這些企業(yè)是不是純粹的大數(shù)據(jù)企業(yè)尚有爭議。一部分人認為,嚴格意義上來說他們只是通過互聯(lián)網(wǎng)+的方式應用大數(shù)據(jù),是大數(shù)據(jù)生態(tài)鏈上最終的消費者,是大數(shù)據(jù)得以應用的主要場景,而不是純粹的大數(shù)據(jù)從業(yè)企業(yè)。拋開爭論,這些大數(shù)據(jù)應用企業(yè),對大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的重要性毋庸置疑。“企業(yè)對數(shù)據(jù)的應用,是大數(shù)據(jù)行業(yè)發(fā)展的引擎”,有專家表示。
據(jù)發(fā)現(xiàn),在每一次關于大數(shù)據(jù)相關的活動中,大數(shù)據(jù)的商業(yè)應用,是最受關注的板塊。在8月26日的中國國際大數(shù)據(jù)大會開幕論壇上,關于大數(shù)據(jù)的商業(yè)應用,學界和業(yè)界即產(chǎn)生了兩種完全對立的觀點。北京大學鄂維南院士提到:“現(xiàn)在的數(shù)據(jù)分析公司是風起云涌,我把它說成是小鍋爐戰(zhàn)場,想當年大煉鋼鐵的時候,就是自己在家里就建了鍋爐就煉。”鄂維南稱,現(xiàn)在的確什么人都可以做,沒有什么技術含量。鄂維南還提到,數(shù)據(jù)交易存在經(jīng)濟學上的悖論,數(shù)據(jù)服務作為一個業(yè)務模式,它的商業(yè)模式現(xiàn)在沒有真正被認可,數(shù)據(jù)通過什么方式賺錢,前景不是那么清楚。
晶贊科技董事長湯奇峰在中國國際大數(shù)據(jù)大會上發(fā)言稱,大數(shù)據(jù)交易并不存在經(jīng)濟學上的悖論。我國企業(yè)對大數(shù)據(jù)應用的現(xiàn)狀基本都是初期的狀態(tài)。應用的主要形式還是,基于大數(shù)據(jù)得到的商業(yè)洞悉,業(yè)務推薦和智能獲客等三個領域。其中的典型就是個性化推薦和智能廣告。湯其峰表示,大數(shù)據(jù)的商業(yè)模式體現(xiàn)在很多方面,大數(shù)據(jù)價值在交易和流通的過程中體現(xiàn),并且會發(fā)生聚變效應,實現(xiàn)邊際效應遞增。
據(jù)了解,目前國內對于大數(shù)據(jù)應用,發(fā)展較好的還是以大企業(yè)為主,比如BAT、滴滴快的、Uber等互聯(lián)網(wǎng)企業(yè)。不管是對外數(shù)據(jù)源采集,還是企業(yè)內部的數(shù)據(jù)資產(chǎn)管理,其互聯(lián)網(wǎng)企業(yè)基因,以及自身的資本優(yōu)勢,使得他們在大數(shù)據(jù)的應用上同樣處于領先的態(tài)勢。同時,由于這些擁有大量數(shù)據(jù)資源的企業(yè),在分析挖掘數(shù)據(jù)形成應用的同時,放棄直接依靠出售數(shù)據(jù)獲利,而選擇對外提供數(shù)據(jù)服務和分析結果,為應用類企業(yè)的決策和東西提供了便利條件。這也是應用類的數(shù)據(jù)企業(yè)或產(chǎn)品數(shù)量較大,占到了行業(yè)總數(shù)的三分之一的重要原因。
而對于部分中小企業(yè)而言,資金缺乏和技術難題導致數(shù)據(jù)獲取難,缺乏數(shù)據(jù)資產(chǎn)管理意識,其對大數(shù)據(jù)的使用,仍在探路中。
另外,我國的大數(shù)據(jù)應用領域分布仍然不夠全面,相關企業(yè)主要集中在互聯(lián)網(wǎng)、市場營銷、電信、金融領域,而政府公共服務、農業(yè)類應用,發(fā)展還在原始階段,近期個別企業(yè)還不時爆出數(shù)據(jù)造假的傳聞。同時,數(shù)據(jù)應用的方式單一,思路狹窄,一些企業(yè)盲目學習國外的數(shù)據(jù)應用模式,也是大數(shù)據(jù)應用企業(yè)發(fā)展的一大短板。
搶占數(shù)據(jù)分析高地
如果說大數(shù)據(jù)的應用,是大數(shù)據(jù)產(chǎn)業(yè)的商業(yè)價值終端,那么大數(shù)據(jù)行業(yè)公認的大數(shù)據(jù)分析,將會是大數(shù)據(jù)產(chǎn)業(yè)的核心,是大數(shù)據(jù)能夠點石成金的關鍵。這樣的判斷是基于大數(shù)據(jù)的特性。數(shù)據(jù)本身不產(chǎn)生價值,當數(shù)據(jù)經(jīng)過挖掘、歸類和分析,能夠給企業(yè)決策提供幫助之后,才具有價值。
數(shù)據(jù)堂公司今年發(fā)布了一份《大數(shù)據(jù)產(chǎn)業(yè)調研及分析報告》,其中將大數(shù)據(jù)分析工作歸類為商業(yè)分析、語音識別、圖像分析、實時處理、空間分析、基因分析、用戶分析、日志分析,和數(shù)據(jù)可視化等九個種類。目前,國內在各個領域都已出現(xiàn)了一批相關大數(shù)據(jù)企業(yè)。
與上述橫向劃分不同,另一些看法則偏向將大數(shù)據(jù)分析按商業(yè)價值的高低進行區(qū)分。前l(fā)inkedIn商業(yè)分析部總監(jiān),GrowingIO的創(chuàng)始人張溪夢介紹說,在數(shù)據(jù)分析發(fā)展更早的美國,數(shù)據(jù)分析區(qū)塊已經(jīng)按商業(yè)價值從低到高地細分為數(shù)據(jù)采集、大數(shù)據(jù)架構、響應性分析,診斷性分析、戰(zhàn)略性分析、預測性分析和全自動分析。而一旦做到數(shù)據(jù)分析全自動化,將會利用10%的時間,創(chuàng)造出這個行業(yè)90%的價值。
在美國數(shù)據(jù)分析領域工作十余年的張溪夢認為,“數(shù)據(jù)分析前端過程復雜,分析昂貴,導致在過去若干年里,數(shù)據(jù)科學家90%的時間和工作都是進行數(shù)據(jù)清洗、整理、傳輸和存儲,但真正產(chǎn)生價值的是剩下的10%。我們必須要利用各種先進技術,把金字塔底部做得非常狹窄,把以往很緩慢的流程縮短甚至透明化。”
據(jù)悉,目前國內的數(shù)據(jù)分析產(chǎn)品,在與國外產(chǎn)品的競爭中仍處劣勢。以日志搜索系統(tǒng)為例,雖然國內已有自主研發(fā)的日志實時搜索分析引擎面世,但市場使用的主流還是HADOOP、STORM和SPARK等國外開放計算框架下的產(chǎn)品,有部分互聯(lián)網(wǎng)和金融企業(yè)則選擇了SPLUNK等第三代日志搜索軟件包,這同樣也是美國開發(fā)的大數(shù)據(jù)工具。
然而國內企業(yè)并非毫無競爭力,日志搜索分析引擎“日志易”的創(chuàng)始人兼CEO陳軍介紹,這些國外數(shù)據(jù)搜索處理系統(tǒng)價格非常昂貴,同時由于之前的“棱鏡門”事件,國外系統(tǒng)的軟件后門也令一些國內的企業(yè)尤其是金融企業(yè)擔憂。
人才短缺是限制國內大數(shù)據(jù)分析企業(yè)發(fā)展的另一大主因。《哈佛商業(yè)評論》曾將數(shù)據(jù)分析師稱為“21世紀最性感的職業(yè)”,當下也是稀缺和搶手的職業(yè)。鄂維南院士介紹,我國大數(shù)據(jù)發(fā)展最大的優(yōu)勢是龐大的市場,最大的劣勢是缺乏人才,“我們國家目前沒有建立起非常好的培養(yǎng)大數(shù)據(jù)人才的機制,在大數(shù)據(jù)涉及的統(tǒng)計、機械學習等這些領域相比而言更加弱勢。”滴滴快的CEO程維在講述如何到硅谷挖人時提到,人才是最大的瓶頸,中國沒有那么多的大數(shù)據(jù)和機器算法的科學家,后來發(fā)現(xiàn)硅谷一線的互聯(lián)網(wǎng)企業(yè),像Uber、Facebook里面20%的工程師是華人。“我們派了CTO和一個代表團在硅谷把他們請到一起交流。”程維說。鄂維南認為,大數(shù)據(jù)分析人才的缺乏,當下數(shù)據(jù)人才市場,不僅有國內和國外的競爭,學術界與企業(yè)界也在競爭。要想彌補人才短缺,在大數(shù)據(jù)領域取得領先地位,需要建立一個開放的,既可以做科研也可以產(chǎn)業(yè)化做市場的國際標準的研究平臺,或是解決之道。
數(shù)據(jù)平臺期待全覆蓋
相對大數(shù)據(jù)分析企業(yè)的專業(yè)和專一定位,產(chǎn)業(yè)覆蓋面廣的大數(shù)據(jù)平臺類企業(yè),則是在國際大數(shù)據(jù)大會的企業(yè)展廳中,占比最高的行業(yè)類型。一位參展的大數(shù)據(jù)平臺商人表示,“大數(shù)據(jù)平臺會是大數(shù)據(jù)行業(yè)的基石和中堅。”據(jù)了解,阿里,百度,華為等企業(yè)都早已布局大數(shù)據(jù)平臺,阿里云更是從2010年就對外開放了其在云計算領域的技術服務。然而,大數(shù)據(jù)平臺的準確定義至今仍未有定論。廣州工業(yè)大學大數(shù)據(jù)戰(zhàn)略研究院副院長謝衛(wèi)紅表示,與數(shù)據(jù)分析、數(shù)據(jù)應用不同,大數(shù)據(jù)平臺是隨著大數(shù)據(jù)產(chǎn)業(yè)興起而誕生的新興事物,目前還沒有官方定義。大數(shù)據(jù)平臺的數(shù)據(jù)規(guī)模和具體功用,都還有待界定。
據(jù)發(fā)現(xiàn),當下市面上所謂的平臺主要有兩類,一類是通過各種渠道搜集、整理數(shù)據(jù),并為數(shù)據(jù)應用企業(yè)提供有償數(shù)據(jù)的數(shù)據(jù)交易類平臺;一類是為了處理企業(yè)內部生產(chǎn)運營中產(chǎn)生的海量數(shù)據(jù),以存儲、運算、展現(xiàn)這些數(shù)據(jù)為目的的數(shù)據(jù)處理類平臺,其工作內容包括了數(shù)據(jù)的輸入、導入、分析以及加工。
在整個大數(shù)據(jù)生態(tài)中,大數(shù)據(jù)平臺處于行業(yè)中上游位置,是進行數(shù)據(jù)分析和應用的基礎。其中,大數(shù)據(jù)交易平臺由于數(shù)據(jù)權屬和交易規(guī)則尚未制定的緣故,發(fā)展相對滯后,基本都是2014年后開始投入運營;大數(shù)據(jù)處理平臺則開發(fā)較早,商業(yè)化程度相對較高。
目前,大數(shù)據(jù)處理平臺的服務對象以企業(yè)為主。除了一些中小型的創(chuàng)業(yè)公司,一些大公司也相繼推出自己的相關業(yè)務,如華為的Fusion Insight,和海爾的SCRM社交化客戶關系管理平臺。其中,大多數(shù)平臺主要解決企業(yè)特別是大企業(yè)內部的數(shù)據(jù)孤島問題,將CRM客戶關系管理、ERP企業(yè)資源計劃、OA辦公自動系統(tǒng)等業(yè)務系統(tǒng)打通,實現(xiàn)跨行業(yè)、跨部門的數(shù)據(jù)分析與整合,以協(xié)助企業(yè)的運營、管理和決策。
在這部分數(shù)據(jù)處理平臺中,包括依靠技術模塊的變化,提供不同行業(yè)平臺服務的平臺,和針對專門行業(yè)的平臺;后者數(shù)量較少,在交通、建筑和媒體行業(yè)都有較為典型的專業(yè)化平臺出現(xiàn)。
此外,數(shù)據(jù)處理平臺中還有一類針對特定業(yè)務系統(tǒng)的大數(shù)據(jù)平臺,比如海爾的SCRM,就是專門的社交化客戶關系管理的數(shù)據(jù)平臺。
由于大數(shù)據(jù)平臺在大數(shù)據(jù)產(chǎn)業(yè)中的基礎性地位,國內的大數(shù)據(jù)處理平臺企業(yè)數(shù)量相對較多。對其業(yè)務性能和服務的評價體系也相應較為完整。
大數(shù)據(jù)處理平臺供應商,九章云極的CEO方磊稱,數(shù)據(jù)集成能力、存儲和計算能力、分析能力、部署能力、運維能力、開發(fā)定制能力,和管理協(xié)調能力等七大方面的能力,會是廠商在挑選平臺服務時的主要尺度和標準。其中前六者形成數(shù)據(jù)資源挖掘和計算能力閉環(huán),管理協(xié)調能力則影響著平臺的工作效率。
然而需求方的要求似乎并沒有得到滿足。方磊透露,在他們與平臺需求企業(yè)的對接中,“端到端”、在數(shù)據(jù)處理平臺上直接實現(xiàn)數(shù)據(jù)分析的要求,越來越多。需求方,往往也是數(shù)據(jù)應用企業(yè),希望平臺能夠提供一體化、一鍵式的自動化數(shù)據(jù)服務。在商業(yè)價值開放較好的大數(shù)據(jù)處理平臺區(qū)塊,需求正加速推動著產(chǎn)品的轉型。“未來大數(shù)據(jù)平臺和大數(shù)據(jù)分析的融合會是一種趨勢,大數(shù)據(jù)分析企業(yè)會向下滲透到數(shù)據(jù)收集和整理,大數(shù)據(jù)平臺企業(yè)會往數(shù)據(jù)分析上發(fā)展,這種擴張是必然的。”方磊說。
不過在當下的技術和人才條件下,大多數(shù)大數(shù)據(jù)處理平臺,還只能實現(xiàn)基礎性的數(shù)據(jù)分析,和簡單的可視化呈現(xiàn)。清華大學數(shù)據(jù)科學研究院執(zhí)行副院長韓亦舜,在接受采訪時表示,目前一鍵式的自動化數(shù)據(jù)服務,只能在一些數(shù)據(jù)結構單一的特定領域實現(xiàn)。對于多源異構的數(shù)據(jù),想要實現(xiàn)一鍵式自動化服務,還有很長的路要走。未來的數(shù)據(jù)平臺,實現(xiàn)針對不同行業(yè)領域的垂直細分后,可能會在某些行業(yè)率先實現(xiàn)突破。
十項大數(shù)據(jù)標準制定中
在業(yè)界構想中的完整大數(shù)據(jù)生態(tài)鏈里,不同人的分類不同,大數(shù)據(jù)企業(yè)的類型也很多。其中必須要提的,就是大數(shù)據(jù)產(chǎn)業(yè)最基礎的工作——數(shù)據(jù)源。一些數(shù)據(jù)源企業(yè)和數(shù)據(jù)存儲系統(tǒng)企業(yè),都已在市場上占據(jù)了一席之地。
目前,由于數(shù)據(jù)流通尚未形成規(guī)模,國內數(shù)據(jù)源區(qū)塊中的平臺比例較為明顯。作為當下僅有的幾家號稱專門從事數(shù)據(jù)源業(yè)務的公司之一,數(shù)據(jù)堂搜集線下數(shù)據(jù),開展線上業(yè)務的市場定位和數(shù)據(jù)眾包、采集加工流通三位一體的“數(shù)據(jù)銀行”的業(yè)務模式較有代表性。
然而,由于行業(yè)規(guī)則和行業(yè)標準缺失、數(shù)據(jù)的權屬不明,當下大量的數(shù)據(jù)交易是不規(guī)范且有爭議的。國務院發(fā)展研究中心技術經(jīng)濟部副部長田杰棠稱,數(shù)據(jù)交易的前提是產(chǎn)權要清晰,尤其是個人在線活動產(chǎn)生的數(shù)據(jù),其產(chǎn)權到底屬于個人還是企業(yè),對于整個產(chǎn)業(yè)的發(fā)展和數(shù)據(jù)資源的配置都有很大影響。
數(shù)據(jù)源企業(yè)的發(fā)展必然伴隨著數(shù)據(jù)交易,不規(guī)范交易、個人隱私界定模糊和數(shù)據(jù)產(chǎn)權劃分不清晰帶來的安全擔憂,是造成國內專門從事數(shù)據(jù)源工作的企業(yè)數(shù)量稀缺的重要原因。
與數(shù)據(jù)源區(qū)塊不同,在大數(shù)據(jù)存儲區(qū)塊,核心技術的缺失成為了最大的問題。一家參展的廈門數(shù)據(jù)存儲系統(tǒng)開發(fā)商負責人告訴記者,國內的數(shù)據(jù)儲存企業(yè)擁有自主知識產(chǎn)權的很少,特別在硬件上的技術落后國外更多。不過這樣的情況正在好轉,韓亦舜表示,隨著近年來硬件開源的興起,國內在數(shù)據(jù)存儲領域實現(xiàn)自主可控的速度有望加快。另外,國內大數(shù)據(jù)標準化進程也在逐步推進中,困擾大數(shù)據(jù)行業(yè)的瓶頸或將迎來部分解決。
據(jù)中國電子信息標準化研究院技術總監(jiān)王立建介紹,國家標準委正在著手制定首批共十項大數(shù)據(jù)標準,分別是大數(shù)據(jù)術語、大數(shù)據(jù)技術參考模型、數(shù)據(jù)交易平臺交易數(shù)據(jù)描述、數(shù)據(jù)交易服務平臺通用功能要求、數(shù)據(jù)能力成熟度評價模型、多媒體數(shù)據(jù)語義描述要求、科學數(shù)據(jù)引用、數(shù)據(jù)溯源描述模型、數(shù)據(jù)質量評價指標和通用數(shù)據(jù)導入接口規(guī)范。其中前四項處在征求意見稿狀態(tài),中間四項已完成草案,最后兩項還在草案大綱階段。另外,大數(shù)據(jù)標準體系框架也已在征求意見稿階段。
隨著政策頂層設計的越發(fā)清晰和行業(yè)標準的逐漸形成,對于大數(shù)據(jù)企業(yè)的未來發(fā)展方向,各方也有了不同的判斷。
一些大數(shù)據(jù)商人認為,長遠看單純從事數(shù)據(jù)生態(tài)某一環(huán)節(jié)的企業(yè),都存在重大轉型壓力,特別是底層的數(shù)據(jù)搜集和挖掘企業(yè),針對不同行業(yè)領域的大數(shù)據(jù)企業(yè)將會整合該領域的數(shù)據(jù)收集、儲存和分析業(yè)務。而另一些大數(shù)據(jù)交易平臺的支持者則認為,大數(shù)據(jù)行業(yè)未來會圍繞大數(shù)據(jù)交易平臺,形成縱向細分的垂直行業(yè)生態(tài),以及橫向產(chǎn)業(yè)鏈精細化分工的網(wǎng)格狀發(fā)展態(tài)勢與布局。來自業(yè)內的預測更為樂觀。阿里研究院數(shù)據(jù)經(jīng)濟研究中心秘書長潘永花表示,根據(jù)2014年的Gartner新興技術曲線顯示,大數(shù)據(jù)已經(jīng)從炒作高峰,進入5到10年的穩(wěn)步發(fā)展期,2015年大數(shù)據(jù)已經(jīng)成為主流技術。