七一社區        注冊

杜小勇:“數據治國”的三個關鍵理念

——從互聯網思維到未來治理圖景

2015年03月16日10:10   來源:《人民論壇·學術前沿》

原標題:“數據治國”的三個關鍵理念

  【中圖分類號】D035 【文獻標識碼】A

  大數據是因信息技術特別是數據獲取技術的革命性進步而形成的信息爆炸現象,因其規模巨大、類型復雜、產生速度快、價值密度低等特點,對現有信息技術構成巨大挑戰。運用新理念、新技術、新方法對大數據進行全生命周期的創新管理和應用,是推動國民經濟轉型和社會管理創新的重要契機,也是提升國家綜合競爭力的重要趨勢。支撐這場大數據革命的底層力量,不僅是技術革命,更是涉及領導意識、組織文化和行為方式的思維革命。在國家治理層面,尤其需要形成“數據治國”的理念,掌握用數據思考和解決社會問題的新方法,最重要的是樹立三種思維方式。

  數據思維

  數據在經濟社會運行中的地位從未像今天這樣重要。之所以要重視大數據,是因為它是一種更好的工具,是信息時代堪比人、財、物要素的資源,是對未來具有戰略意義的資產。但實際上,大數據的價值並不止於此,它正在“成為這個世界上最重要的土壤和基礎”(涂子沛語)①,成為一切管理和決策的依據。與之相應的,大數據治理首先要樹立的是數據思維。

  量化思維:先有數,再做事。“一切皆可量化。”這是斯蒂芬·貝克(Stephen Beck)在《當我們變成一堆數字》一書中提出的觀點。②在這本匯聚數字報告和分析的力作裡,斯蒂芬·貝克展示了我們正在進入一個鮮活的量化世界:每一天,我們的身后都拖著一條由個人信息組成的長長的“尾巴”,我們點擊網頁、切換電視頻道、駕車穿過自動收費站、用信用卡購物、使用手機等行為——這些過去完全被忽略的信息——都通過各種方式被數據化地記錄下來。

  放眼宏觀,我們看到物聯網傳感器數據、互聯網用戶生成(UGC)數據、業務系統運行數據、信息系統日志數據、科學儀器產生的數據……這些數據源源不斷地產生,把物理世界的萬事萬物一一映射成一個數據世界,從而形成大數據時代的全貌。

  數據的延伸,就是管理的延伸。“不會量化就無法管理”③的思想已成為管理學界的共識。借助“一切皆可量化”的技術背景與思維方式,政府可以獲得更多基於管理和服務對象的信息,做到更加精准的洞察和預測,從而大大豐富治理的手段和方式。

  美國政府已經在著手進行追蹤恐怖分子的大數據挖掘計劃。他們認為,如果恐怖分子要計劃一次襲擊活動,必定會在各種角落留下某種痕跡,通過對這些“數據足跡”進行挖掘,就能發現和追蹤恐怖分子。這些做法,對於我國邊疆地區維穩和預防暴力事件都是一種有益的啟示。

  紐約市為了恢復哈德森河的生態,在河的沿岸都安裝了傳感器,傳感器把河水的鹽度、濁度、葉綠素、顆粒物粒徑以及河面風向等數據收集起來,實時地傳遞到后台。在計算中心,各種數據匯成了一條虛擬的哈德森河,流水何時被污染,化學、物理、生物成分發生了什麼變化,一看便知。④接下來,數據科學家便可以利用這些信息建立一個哈德森河的環境模型,評估不同的治理方案和人類干預對哈德森環境的多種影響,以保証在實際治理時的效率和效果。

  很多國家和地區,包括中國的一些地區,正在給數以千萬計的家庭安裝智能電表。這些電表每隔幾秒鐘或幾分鐘就讀取一次用電數據,電力公司據此每個月向每戶家庭提供一份個性化報告,以鼓勵節約用電。在美國,智能電表工程預計每年能為全國消費用電節省5億美元。大數據成為政府節能減排的千裡眼、萬隻手,並且做到了深入每一戶家庭、量身定制解決方案,這在入戶抄電表的傳統工作方式下根本是無法想象的事情!

  量化只是第一步。量化的目的是建設數據平台,涉及數據捕獲、數據傳輸、數據存儲、數據處理、數據分析、數據消亡等動態過程。要在國家和社會治理層面建立這樣一個完整的數據生命周期,需要做大量的基礎性工作,更要在政府部門普遍形成“先有數,再做事”的組織文化和行為風尚。

  決策思維:讓數據說話。隨著信息技術的進步,硬件的重要性正在急速下降,數據的重要性正在不斷提升。以前都是先有應用后有數據,現在是先有數據再說應用。數據具有獨立存在的價值,軟件是為數據服務的。在大數據時代,我們需要樹立以數據為中心的新思維。具體到政府層面,應當盡快將已有的管理決策模式變為“數據驅動”新模式,在領導意識、組織文化和工作流程上經歷一次從內而外的蛻變。

  一般來說,決策可以由三種方式分別或混合地驅動:直覺、經驗和邏輯。雖然有時直覺和經驗在決策過程中是無可替代的,例如喬布斯對蘋果產品需求的直覺把握,但經驗和直覺往往容易產生偏差。比如,決策的出發點或許並不差,但由於缺乏民主基礎和科學依據,其結果往往不能令民眾滿意﹔決策過程可能很粗放,完全是“一言堂”,根本不聽取社會上方方面面的意見,結果在實施過程中,漏洞百出。

  中國領導者的決策往往更傾向於依賴經驗和直覺,有時候甚至僅迫於眼前的境遇與狀況,缺乏依靠數字管理的習慣。在政府的會議室裡,一件似乎經過了理智討論的事情,可能是在沒有什麼實際標准的情況下做出的決定。這種現象並不少見。個別領導干部把決斷誤認為武斷和盲斷,由於決策失誤給國家和人民造成損失,被群眾戲稱為“三拍”干部,即“事前拍腦袋決策、事中拍胸脯保証、出事后拍屁股走人”。

  在過去,受數據獲取以及分析的限制,依靠決策人的經驗“拍腦袋”決策是不得已而為之。在大數據時代,各行各業都在學習如何利用數據進行預測、作出決策,政府領導者們如果不能與時俱進,做到凡事“心中有數”,很難想象如何做一個稱職的“當家人”。此外,隨著公共管理事務的日益復雜,僅憑個人感知,已經很難全面地了解所有正在發生的事情,並給出正確的判斷。這就要求政府部門提高改革決策的科學性,把大數據技術與思維運用到管理與決策中,掌握決策依據、優化決策過程、跟蹤決策實施﹔要求管理者改變“差不多先生”(胡適語)的作風⑤,養成“用數據來說話、用數據來管理、用數據來決策、用數據來創新”的思維習慣。

  有志於引領組織實現大數據轉型的管理者們,可以從兩個最簡單的技巧開始。首先,要養成問“數據怎麼說”的習慣。大數據驅動下的管理,重要的不是“我們怎麼想”,而應該是“我們知道什麼”。遇到重大決策的時候,還要緊跟著這個問題進一步問:“這些數據從哪兒來的?”“這些數據能得出什麼結論?”“我們對結果有多大信心?”決策者對於數據與客觀証據的尊重是大數據發揮價值的重要保証。當管理層的思維發生了這樣的變化,員工就能從中迅速接收到信息,得到重視數據的激勵。其次,要允許數據做主。數據得出的結論,有的能夠支持既有的經驗,有些則可能與之相悖。當結論與經驗不符時,數據說了算還是經驗說了算?這將對數據在組織中的地位形成考驗。如果決策者不願意根據數據調整自己的經驗,甚至有選擇地“看到”那些和自己經驗相一致的數據,那麼無論搜集了多麼海量的數據,無論引入了何種高深的算法,這些數據與算法都只是為了支持與粉飾決策者既有的決定,不能帶來新的知識與價值。相反,如果員工用來自一線的大數據分析結果,讓經驗豐富的領導推翻了自己原先的直覺判斷,放手讓“大數據說話”,這將是改變組織決策文化的最大力量!

  整合思維:打破信息孤島。政府掌握著社會方方面面的大數據,人口、交通、衛生、社保、稅收、城市規劃……雖然大多數政府部門都建成了比較完備的信息化平台,但是各個部門間的數據沒有進行高效的整合,大量部門的數據如一個個信息孤島,給政府調度和公眾辦事帶來了不便,也制約了數據活力的激發。

  例如,購買一套住房,需要填報十幾張表格,每張表格可能1/3以上的內容是重復的,這些都是政府擁有的基礎數據,完全可以根據身份証號碼自動生成。北漂小伙為了辦一張護照,返鄉6次,補5張証明,多跑3000公裡。而隻要實現了綜合數據聯網,這5張証明的相關信息(無犯罪証明、公司在職証明、公司營業執照、公司外派人員資格証明、本地身份証),完全可以由政府部門內部調取,而不必讓老百姓為此急斷腸、跑斷腿。⑥

  信息孤島是行業信息化的階段性產物,而要打破條塊分割,實現不同政府部門、不同層級之間數據的集中共享也非一日之功。一方面,需進行縱向信息系統整合,在相同的上下級政府部門之間,利用多級網絡和中心數據庫,構建統一的信息平台。例如,流動人口在我國是一個較大的問題。誰在流動?能不能從傳統的戶籍系統裡找出一些規律以利於更好地管理?比如,能不能把勞動力輸出省安徽的戶籍數據與輸入省廣東的戶籍數據整合起來?這既需要自上而下的部署,也需要自下而上的實驗。另一方面,還需進行水平的電子政務信息系統整合,實現跨部門的政府信息資源共享和政務協同。例如,在社保(市民)卡辦理的時候,以共享信息的方式使用二代身份証照片,可減少市民照相和出行成本﹔企業報備辦理港澳商務通行証,通過共享國稅地稅相關信息,可以免去到市國地稅局開設納稅額度証明步驟﹔稅務質檢登記復用工商信息,可以減少辦事人員等待時間等。

  數據之網縱橫交錯,才能激發活力。我國財政部門以互聯網門戶網站建設和財政專網系統建設為抓手,全面打造財政政務公開的“陽光平台”,形成縱向聯通國家、省、市、縣財政部門、橫向連接同級人民銀行國庫、代理銀行、國地稅部門以及所有預算單位的橫縱結合的網絡系統。這些舉措不斷塑造著“財—金—企—社”信息資源網絡化的雛形。

  要徹底打破信息孤島,還需要從內部管理觀念和行政體制上著手。雖然說“信息孤島”形成的表面原因是信息存儲格式不一致的問題,但目前更深層次的原因其實是管理上的孤島現象。觀念和態度不變,即使手握利器,行政效率和服務質量也難提高。誰都知道“九龍治水”弊端多,即使現在大數據有辦法讓“九龍”成天“坐在一起”,但如果互相誰也不理誰,水還是治不好。

  互聯網思維

  凱文·凱利指出,雲計算時代的最大文化動向就是永遠在線。⑦人與人、人與設備、設備與設備時時刻刻的連接,將以7×24小時的方式源源不斷地產生數據。特別是web2.0之后的用戶生成內容(UGC),包括社交網絡(SN),是大數據形成的重要原因之一。因此,要做好大數據治理,還必須深入理解互聯網思維。

  關聯思維:萬物皆相關。在氣象經濟學界流行這樣一條“德爾菲氣象定律”,即氣象投入與產出比為1:98,也就是說,在氣象信息方面每投入1元,就可以得到98元的經濟回報。一個典型的例子是,氣溫每降低1℃,北京市燃氣供暖系統日消耗天然氣將增加約200萬立方米。如果提高氣象預報的精度,實時對供暖系統進行合理調度,無疑將有效降低能源消耗,節省很大一筆經費開支。

  這就是大數據的價值所在。通過挖掘海量數據,呈現一個充滿關聯的世界。誠如舍恩伯格所預言的那樣:“將世界看作信息,看作可以理解的數據的海洋,為我們提供了一個從未有過的審視現實的視角。它是一種可以滲透到所有生活領域的世界觀。”⑧

  在商業案例中,你可能聽說過啤酒與尿布、搜索詞與流感趨勢、女兒懷孕與廣告傳單的故事﹔在國家與社會治理中,也有很多運用數據相關性的成功案例。例如,紐約市警方開發了一款電子數據地圖——CompStat,通過分析案件發生歷史與發薪日、體育賽事、天氣變化、假日等變量的相關性,預測最可能發生罪案的“熱點”地區,並預先在這些地區部署警力。應用這套系統后的次年,該市犯罪率就出現了明顯的下降,凶殺案發生數量創下了50年來最低。⑨

  中國海關的“電子口岸”整合了工商、稅務、海關、外貿、外匯、銀行、公安、交通、鐵路、民航、國檢等十幾家部門的數據。數據之間實時的聯網分析,使“電子口岸”在加快報關速度、高效打擊不法分子的同時,更成為中國經濟的“氣象預報台”,能夠為國家宏觀經濟調控提供非常精細、全面的決策支持。

  大數據之所以能發掘規律、作出預測,靠的是對相關關系的把握。我們常說“清明時節雨紛紛”,這個結論並不是邏輯推導出來的,而是人們通過多年觀察,發現以往每年這幾天總是下雨比較多,於是總結出了這樣一個朴素的規律。同樣的道理,計算機可以在海量的數據上運用數據挖掘等辦法,自動地發現一些相關性,然后通過相關關系來預測事情發生的可能性。例如,從公交車輛運行的點數據推斷一個路段發生擁堵的可能性,從納稅人的異常數據特征發現偷稅漏稅的可能性,從人們上網檢索的關鍵詞推斷流感爆發的可能性,等等。

  盡管因果關系是最深刻的一類聯系,但是我們很多時候並不能獲得。這種情況下,我們是無所作為呢,還是也可以有所作為?答案是明顯的,隻要我們知道一些相關關系,我們也可以進行預測。相關關系也許不能准確地告知我們某件事情為何會發生,但是它會提醒我們這件事情正在發生。在許多情況下,這種提醒的幫助已經足夠大了。如果電子醫療記錄顯示橙汁和阿司匹林的特定組合可以治療癌症,那麼找出具體的致病原因就沒有這種治療方法本身來得重要。同樣,隻要我們知道什麼時候是買機票的最佳時機,就算不知道機票價格瘋狂變動的原因也無所謂了。因此,我們常常說在大數據時代,“是什麼”比“為什麼”更重要,相關關系比因果關系更重要。

  去中心思維:走向網狀社會。互聯網時代最鮮明的特征是去中心化、平等化。因為互聯網在本質上是反壟斷的:開源軟件社區的發展打破了少數大企業對技術的壟斷,信息公開和開放數據打破了信息壟斷,雲計算等租賃業務的普及打破了資源壟斷。

  尤其在傳播領域,我們可以非常清楚地看到這樣一個去中心化的趨勢。在報刊、廣播、電視流行的傳統媒體時期,人們隻能聽到中心的一個聲音。后來,博客的誕生使得每個人都可以發表自己的想法。較之於傳統媒體,這是個巨大的飛躍。但是個人的想法能讓多少人聽到,卻依然取決於門戶網站的編輯(即自己發表的博客是否被精選)。隨著微博的興起,所有人可以在一個統一的公共討論空間討論,更重要的是這個討論空間,不再依靠一個中心,而是靠著興趣、關系的鏈條自動生成、壯大,編輯的力量被前所未有地削弱了。

  數據的生產和流動也遵循這樣一個去中心化的趨勢。涂子沛在《大數據》一書中指出⑩,在大數據時代,基於層級的社會控制手段將不再適用,基於流程的管理方法也有很大局限性。這是因為,在大數據時代,信息和數據是最重要的資源,一旦信息自由、數據開放,就意味著信息和每一個公民之間都是等距的,而且中間沒有層級的過濾。數據的開放和流動,就代表著知識的開放和流動、代表著權力的開放和流動,這種開放和流動是多中心的、水平的。在這個時代,社會的主體結構將從分層轉向“結網”,在網狀傳播力量的不斷沖擊下,個人的主體價值將得到前所未有地張揚,集中在政府的權力將開始分散,權力的最終流向是社會、是大眾、是一個個獨立的公民個體。大數據時代正在呼喚下一波社會化的浪潮:一個更開放的社會,一個權力更分散的社會,一個網狀的大社會。

  這會形成一種什麼樣的國家和社會治理圖景?一個可以預見的前景是,政府的組織形態必將越來越開放,從條塊分割、封閉的架構向開放、協同、合作的方向邁進。傳統的決策過程是線性的、自上而下的,而伴隨互聯網和大數據浪潮而來的,將是一個非線性的、去中心化的、自下而上的、發現群體智慧的決策模式。

  美國一位程序員發明了一款應用軟件——SeeClickFix,居民可以通過手機拍照,向該軟件舉報亂涂亂畫、交通燈損壞或者排水管堵塞事件,這些投訴被自動記錄在案,並被發送到公共事業部門的卡車儀表盤上,相關問題也得到了很快的解決。 SeeClickFix自2008年3月研發以來,目前已在美國上千個城市和社區中使用,其中既有舊金山、華盛頓、達拉斯等大城市,也包括麻州西部和康州的許多小鎮。

  SeeClickFix是政府2.0理念的典型代表。在我國“社區網格化”管理系統實踐中,類似系統也得到了普遍應用。“政府2.0”的實質,就是平台的政府、服務導向的政府、開放的政府,從以政府為主體的管治轉向以協同共治、公共服務為導向的公共價值塑造。通過這種開放的平台,公眾能夠參與政府提供公共服務產品的全過程,包括公共服務產品的設計、生產、供給等各個環節﹔而政府也能打開更為深入和廣泛了解民情民意的“政策窗口”,疏通促進社會和諧的民意渠道,找到不斷優化公共決策的新機遇。

  人本思維:政務人性化。互聯網思維的核心在於以用戶需求為主導,將用戶思考和用戶體驗做到極致是關鍵所在。政府的核心職能就是為人民服務,以人為本是貫徹落實科學發展觀的核心要求。在這個層面上,我們的執政理念與互聯網精神是非常契合的。

  以人為本的前提是全面了解與服務對象有關的情況與需求,隻有建立在這種數據基礎上的判斷,才能保証政府落地的政策能實實在在地使每一個公民受益。如果搞“長官意志”,不能很好地把握民情民意,這種服務就會陷入想當然的境地。

  在大數據的輔助下,政府一方面能夠實時、全面感知和預測公眾所需的各類服務和信息,及時發現需求熱點,為用戶提供更加智能化的辦事、便民服務﹔另一方面,對公民需求的多維度多層次細分,把從面上的需求判斷變為對需求細節的感知,使政府服務提供更精准、更個性化。人本思維的樹立,有助於使政府改變傳統的“指令導向”的公共管理模式和“供給導向”的公共服務模式,開啟“需求導向”的公共管理與服務新模式。

  北京市公交部門於2013年9月推出“定制公交”平台。市民可在該平台上提出自己的出行需求。公交集團則根據乘客提出的出行需求和客流情況,設計商務班車線路,然后在定制公交平台上招募乘客、預訂座位、在線支付。根據約定的時間、地點、方向開行商務班車,保証一人一座,每日出行費用也將遠遠低於自駕車和乘坐出租車。

  大數據的創新運用和實時分析,還被認為能夠推動失業、飢餓、疾病爆發等社會問題的解決,對於發展中國家的發展而言尤其具有特殊意義。近些年全球糧食、能源和金融危機的經驗告訴人們,盡管當今世界信息技術非常發達,但決策者得到有用信息並及時採取行動以保護弱勢人群的速度,卻總是滯后於危機的出現。為了改變這種狀況,2009年,聯合國啟動“全球脈動”(Global Pulse)計劃 ,旨在為各國提供實時數據分析,以便更准確地了解人類福祉狀況,降低全球性危機對人類生活的影響。與傳統的統計僅能有效跟蹤中長期發展趨勢相比,“全球脈動”旨在發現新的數字化指標,實時了解情況,並及時為決策者提供反饋。

  聯合國秘書長潘基文說:“我們事實上是在一個實時信息的海洋中游泳,手機和數據服務的爆炸式增長意味著世界各地的人們在為全球知識庫作出海量的信息貢獻。他們還通過交流、購買、出售和其他日常生活活動以免費的方式提供著信息。私營部門正在研究這些新數據以便實時了解顧客。聯合國也必須為自己的服務對象——全世界那些失去工作、生病、難以養活自己和家人的人們做同樣的事情。”

  在2014年“兩會”上,“大數據”一詞首次被寫入《政府工作報告》。不少代表委員舉起“數據治國”的大旗:小米總裁雷軍呼吁將大數據上升為國家戰略,百度總裁李彥宏提議用大數據解決教育資源不平等問題,還有多位代表委員提出成立國家大數據戰略委員會,用大數據破解“十面霾伏”、“舌尖上的安全”、“人在証途”、反恐、房價調控等民生難題。誠如涂子沛在《數據之巔》中所言:“人類的地平線上出現了一些新方法來解決一些老問題,這些方法用的不是鋼筋和水泥,而是軟件和數據。”

  計算思維

  “大數據”現象是由於信息技術的進步而產生的,大數據時代就是大計算時代,無處不在的計算標志著一個計算型社會的興起。因此可以說,沒有計算技術的發展,就沒有大數據。但是,常常聽到有人說“技術不重要”,這種輕視技術的思想對於大數據應用的良性發展隻會帶來傷害。大數據應用就是一種基於計算機信息技術的解決問題的辦法,因此也需要計算思維。

  計算思維是運用計算機科學的基礎概念進行問題求解、系統設計以及人類行為理解等涵蓋計算機科學之廣度的一系列思維活動。計算思維,簡單地說是指人們利用計算機解決問題的普遍方法。計算思維的提出者周以真(Jeannette M. Wing)教授認為,計算思維同算術能力、語言能力等一樣,是每一個現代人需要具備的基本能力。 從計算機解決問題的角度分析,我們認為以下兩個方面最為重要:

  算法思維:把工作交給機器。大數據應用是一個極為復雜的系統,大數據系統包括數據採集、數據清洗、數據存儲、數據傳輸、數據管理、數據分析、數據挖掘、數據展示等許多環節,其中任何一項工作都是人力所難以勝任的,一定要借助計算機的力量,通過事先編寫好的程度自動完成。

  我們在日常工作中也常常會做些調查研究、數據統計分析等,都是手工完成的,最多採用一些數據處理的工具,例如excel等。在大數據時代,我們面臨的是TB級、PB級的數據,這遠超出了人力所能處理的范疇。

  算法思維的關鍵是要回答以下幾個問題:我們面對的問題是否可計算?計算復雜度有多大?是否存在在合理的時間和資源條件下可完成計算任務的有效的計算算法?這些問題有些專業,並非管理人員能回答,具體答案可以交給技術人員去完成,但是管理人員在決策時需要考慮到這些問題。

  基於大數據的求解問題的算法不能太復雜,需要比較簡單才可行。舉個智能翻譯的例子。(17)傳統翻譯軟件設定了很多語法規則,用這些僵化的規則拆解每個句子,再逐字翻譯生成不同的語句。但這往往使翻譯出來的語句生硬拗口,甚至錯誤率很高。谷歌的翻譯軟件卻不是這麼做,他們從大量已存的翻譯文章中對比,找出最合適的翻譯的文字。事實証明雖然網上搜集來的翻譯文章有不少是錯誤的,或者質量不高,但由於數據量極大,這些錯誤可以通過排序被過濾掉,這種方法大大提高了翻譯的質量和准確性。也就是說,不精確的大數據用簡單算法,比精確的小數據用復雜算法要有效得多!以大數據方式做翻譯的另一個好處是,系統會隨著數據的積累而不斷改善。如果您看到某條譯文不太合適,可以點擊相關詞組查看備選翻譯結果。當您點擊更好的備選譯文時,Google翻譯會記下您的反饋,並在日后繼續改進。谷歌翻譯目前能夠支持71種語言的互譯,2012年用戶的使用次數達到2億次。

  用簡單的算法,在大數據上能夠創造出復雜的人工智能,使計算機代替人類完成動態監測、語音咨詢、作業批改乃至醫療診斷、法律文書處理等專業任務。這種處理不僅是實時的、大批量的,更是科學的、精准的。

  美國郵政(USPS)的計算機系統能夠自動掃描郵件的相關數據(存放位置、派送路線、重量、體積等信息),通過與數據庫中近4千億條數據的比較,甄別出“郵資欺詐”的郵件。掃描一封郵件隻需要50∼100毫秒。一旦檢測出了“異常”——比如包裹郵資不足或者郵票重復使用等情況,系統就會對信件實施實時攔截,再由分揀人員對其進行特殊處理。有趣的是,該項目竟然由此形成了“威懾效應”。自從2006年開始實施此計劃起,“郵資欺詐”行為減少了很多。(18)

  把工作交給機器,讓機器替代或輔助人工,不僅是科技的未來,更是政務大數據的未來。

  平台思維:給工作搭一個舞台。“平台”指計算機硬件或軟件的操作環境,泛指進行某項工作所需要的環境或條件,包括技術平台、業務平台、數據平台等。“平台”不是一天就建立起來的,需要巨大的建設投資和長期的運行維護成本。我們的一切工作都需要在這個平台上進行。平台一旦建成,中途也很難更換。因此,平台的規劃、技術選擇等就成為開展大數據應用的重要課題之一。

  由於大數據應用種類非常繁多,特征各不相同,一種普遍被接受的觀點是大數據平台應該是因應用而異的。例如,就數據管理而言,傳統關系數據庫管理系統(DBMS)秉承的“全能型”(one-size-fits-all)理念不再適用於紛繁復雜的現實應用:數據不同,負載不同,應用場景不同等,導致每一類典型應用都需要有相應的數據管理系統。

  “平台”的可擴展性也是一個重要的問題。從組織IT架構體系上來看,必須考慮可擴展性的問題:隨著使用人數的增多、業務量的增加,系統必須具備能夠及時擴展IT系統的能力。解決這個問題通常有兩種方式:縱向擴容(Scale up)和橫向擴容(Scale out),兩種擴容的方式分別從兩個維度來解決數據管理壓力。縱向擴容就是將數據庫服務器的配置提高,如增加硬件資源配置,通過硬件速度提升來解決訪問壓力。橫向擴容就是將應用的數據拆分,將原來集中存儲的數據根據一定的規則分布到不同的物理數據庫服務器上。縱向擴容模式實施成本較高,壓力大到一定程度之后,硬件可能無法滿足這類需求。如果能夠通過疊加相對廉價設備的方式實現存儲和計算能力的擴展,那麼這將是長期可擴展的有效手段。這是橫向擴容的優勢。

  舉例來說,我國的群體性事件時有發生。政府為了加強對群體性事件的發現和處置能力,就需要有一個基於大數據的輿情分析平台,加強輿情研判能力,以捕捉最佳處置時機。這個平台需要自動收集各種社交網絡上的信息並進行整合,監控社會輿情和公眾情緒,並具有能對網民群體行為進行社會態勢分析與預警的能力,將可能釀成重大輿情危機的不穩定苗頭化解在萌芽狀態。這個平台需要管理各種結構化和非結構化的數據,需要很強的橫向擴展能力和實時數據分析能力。建設這個平台將成為政府一項投資巨大、挑戰巨大的任務。

  結束語

  面對新一輪的大數據革命,由於技術的全球化和開放性,中國具有獨特的“后發優勢”,在很多方面甚至具備創新和超越的可能。

  當然,在科技迅猛發展的今天,還有相當多的農民和城市底層居民,因為各種原因而成為信息時代的缺席者,無法在網絡世界表達意見和訴求。例如,用駕駛員的智能手機收集交通擁堵、路面坑窪數據,這固然是一個以低成本收集信息的途徑,但是,這樣收集的信息是存在盲區的,一些貧窮社區、老年社區的道路很可能會因為報告較少而得不到及時的維護。在中國,數字鴻溝造成的差別正在成為繼城鄉差別、工農差別、腦體差別“三大差別”之后的“第四大差別”,其本身已不僅僅是一個技術問題,而正在成為一個社會問題。隻有確保人們能夠平等地享用現代通信和網絡基礎設施,擁有大體平等的教育機會,才能使這些問題得到解決。

  黨的十八屆三中全會將“國家治理體系和治理能力的現代化”列為全面深化改革的總目標,大數據應當成為國家治理現代化的題中之義,在頂層設計和國家戰略層面予以部署。大數據治理的內涵還很豐富,還有待我們進一步認識、進一步闡釋,有關數據質量、數據隱私、數據安全、數據標准、數據溯源、數據開放、數據定價估價等也都是非常重要而現實的課題。但是變化正在發生,你我置身其中,數據治國的時代已經來臨。

  (中國人民大學中國調查與數據中心研究人員馮啟娜對此文亦有貢獻)

  注釋

  ① 涂子沛:《數據之巔:大數據革命的歷史、現實與未來》,北京:中信出版社,2014年,第292、337頁。

  ②﹝美﹞斯蒂芬·貝克:《當我們變成一堆數字》,北京:中信出版社,2007年。

  ③﹝美﹞安德魯·麥卡菲(Andrew McAfee)、埃裡克·布林約爾鬆(Erik Brynjolfsson):《大數據:一場管理革命》,《哈佛商業評論》,2012年10月。

  ④洪黎明:《物聯網:“智能城市”生長的沃土》,《福建日報》,2010年12月23日,第15版。

  ⑤1919年,胡適寫下了一篇著名的雜文《差不多先生傳》,活靈活現地描繪出了中國人取道中庸、不肯認真、甘於糊涂、拒絕精准的庸碌形象,表達了對中國人“凡事差不多、凡事隻講大致如此”的習慣和作風的憂慮。

  ⑥《北漂小伙返鄉6次辦護照 補5張証明多跑3000公裡》,“焦點訪談”,央視網,2013年10月11日。

  ⑦﹝美﹞凱文·凱利:《技術元素》,北京:電子工業出版社,2014年,第223頁。

  ⑧(17)﹝英﹞維克托·邁爾-舍恩伯格(Viktor Mayer-Sch nberger):《大數據時代》,杭州:浙江人民出版社,2013年,第53∼55、73頁。

  ⑨⑩涂子沛:《大數據:正在到來的數據革命》,桂林:廣西師范大學出版社,2012年,第77∼82、313頁。

   ﹝美﹞安雅·卡緬涅茨(Anya Kamenetz):《技術公民佔領政府:政府2.0時代的凱歌》(How an Army of Techies Is Taking on City Hall),高成長公司(Fast Company),2010年。

   徐繼華、馮啟娜、陳貞汝:《智慧政府:大數據治國時代的來臨》,北京:中信出版社,2014年,第33∼34頁。

   UN Global Pulse, Big Data for Development: Challenges & Opportunities, May, 2012.

   聯合國:《聯合國全球脈動:分析實時數據 增進人類福祉》,聯合國新聞網,2011年11月8日。

   Wing J M., Computational Thinking, Communications of the ACM, 2006.

  (18)張婷:《美國郵政探尋“大數據”生存之道》,新華網,2013年4月19日。

  Three Key Concepts of "Data-based National Governance"

  —From the Internet Thinking to the Vision of Future Governance

  Du Xiaoyong

  Abstract: "Big data" poses a great challenge to the present information technology due to its gigantic volume, complex types, fast production speed, and low value density. Using new ideas, new technology, and new methods to innovate the full-process management and application of big data creates an opportunity for promoting national economic transformation and social management innovation and is an important trend for enhancing the overall national competitiveness. The power supporting this big data revolution not only comes from the technological revolution but also from the thinking revolution pertaining to the sense of leadership, organizational culture and way of behavior. At the national governance level, the concept of data-based governance is especially needed. In adopting new methods to think about and solve social problems with a data mind-set, the most important thing is to establish the data thinking, Internet thinking and computing thinking.

  Keywords: governance modernization, data-based national governance, computing thinking, technological revolution

  【作者簡介】

  杜小勇,中國人民大學信息學院院長、教授。研究方向為數據管理技術、語義網技術、智能信息檢索技術。主要著作有《Efficiently Supporting Edit Distance Based String Similarity Search Using B+ Trees》等。


使用微信“掃一掃”功能添加“學習微平台”
(責編:萬鵬、謝磊)
相關專題
· 《學術前沿》
  • 最新評論
  • 熱門評論
查看全部留言

熱點關鍵詞