七一社區        注冊

李希光:大數據時代的輿情研判和輿論引導

2014年01月14日08:50   來源:思想政治工作研究

一、大數據與我們的生活

我第一次接觸電腦是1982年大學畢業分到中科院理論物理所當研究實習員。所長周光召教授花了250美元從美國帶來了一台剛面世的蘋果電腦,讓我第一次看到了電腦視窗,第一次意識到電腦裡的數據是可以看得見、看得懂,而且還可以用來玩游戲。而在此之前的六十年代,周光召、於敏、何祚庥等科學家做核武器的理論設計,使用的還是手搖計算機。

研究生畢業以后,我被分配到新華社做記者,恰好趕上新華社全面採用電腦終端編輯英文新聞,使英文新聞的編發工作實現了電腦化。在此之前,記者要靠紙筆、打字機、傳真機和電傳機進行手工作業,編輯部門要把編好的稿件送到發稿部門,由報務人員按稿件先打字作電傳孔條,然后再在各條線路的發送機上發出。使用終端機后,編輯記者可以在電腦上直接對稿件進行編輯修改。

我買的第一台個人電腦是中關村的組裝機。那台電腦的操作系統是UCDOS,使用的是5.25英寸的軟盤,容量是360K。我的第二台個人電腦的軟盤已經更新成3.5寸的,容量也增加到1.44M,我的辦公室現在還有上百張3.5寸的軟盤,可惜現在已經不太容易找到能夠讀軟盤的電腦了。光驅、移動硬盤、U盤打敗了軟盤,成為數據存儲的主流,存儲介質的容量也越來越大,幾年前的U盤一般都是16M的,而如今64G的U盤都嫌不夠用。

過去20年,我每次出國都要逛電子產品商店,看看有沒有容量更大的移動硬盤或U盤。我現在使用的是兩塊1TB(1TB=1024GB)的移動硬盤,分別存儲不同的文件。其中一塊移動硬盤裡存儲著Foxmail郵件客戶端,數據容量已經達到30GB,存儲著我所有的電子郵件,我用Foxmail對郵件信息進行了分類,它就像我的一個私人圖書館一樣,隨時可以方便地查找資料。

我對“網絡數據”的直觀感受就是它的增長速度像原子彈鏈式反應一樣,至今仍在加速膨脹。從2010年到現在這3年的時間,就積累了2T的數據,與前15年數據的容量相當。

我的辦公室有一面牆的書架都是存放錄音帶、錄像帶、光盤和各類軟盤的,存儲著我從教書以來的所有影像、課件、資料,但是查找文件就像大海撈針一樣。現在許多軟件對數據分類和查找都支持得很好,如果能在一張移動硬盤上集中存儲這些數據,自然要方便很多。但移動硬盤也不安全,既有被盜的風險,也擔心使用中損壞。所以最終的解決方案還是要依靠雲存儲,所有的文件都存儲在虛擬空間裡,隨時可以通過互聯網找出來。

作為一名研究人員,我從事研究工作的基礎是文獻檢索和綜述,離不開數據的收集、分類、綜述、摘要,這些工作在過去都是依靠紙質的報刊、圖書文獻,工作的方法是“剪報”,我從小學三年級開始剪報,一直到讀研究生還保持著這個習慣。后來到新華社當記者,查找文獻還是依靠剪報。再后來出現了電腦,的確給文獻的收集和使用帶來了方便,但由於太相信電腦,一旦系統崩潰了或硬盤壞了,數據就沒了。

雲計算的發展不僅使得通過互聯網獲取個人信息更加容易、可獲取的內容也更多,而且在雲技術環境下,大量用戶的數據不再存放於個人電腦或移動硬盤中,而是存儲在遠在天邊的雲儲存器提供商的服務器裡。越來越多的像百度、騰訊、新浪微博、谷歌提供的網絡信息服務,正在變成超級信息工廠和倉庫。由於智能手機、平板電腦、社交媒體網站、電子郵件和其他形式的數字通訊的廣泛使用,全球每天產生250億字節的新數據。據IBM估計,在全球現存數據中,有90%是過去兩年中產生的。據國際數據公司(International Data Corporation)預計,從現在起到2020年,數字世界的規模將每兩年翻一番,和爆炸性的數據增長相伴隨的,是大數據技術的快速發展。

大數據技術是指運用搜索引擎、社交媒體、各類網絡數據庫,實時聚集數以百萬本書那麼厚的文本和圖像,用一種搜索、分類、分析的軟件,通過高速的計算機運算和業內專家的研判,精確描繪現狀並預測未來。比如,利用谷歌、騰訊、百度、微博提供的數據預測今年的流感、預測社會輿論的趨勢。大數據正在徹底改變我們對政治、新聞、商業、健康、教育的認識。

大數據技術使對規模巨大的數字信息進行自動及瞬時的分析變成可能。而掌握這種技術的公司,就會成為別人數字資產的事實上的擁有者,這些公司運用大數據軟件,跟蹤分析社交媒體或搜索引擎,就有可能跟蹤世界上幾乎任何地方的人的活動和往來。運用大數據分析事物,其最大的特點,是幫助我們發現兩個看上去毫不相關的事或人之間暗藏的關聯。數據挖掘技術的提高使得目標信息能夠被還原得更加准確。近年來,以微博、微信為代表的社交媒體受到熱捧。人們熱衷於在這些社交媒體上發布自己的照片、心情、行蹤等各類信息。與此同時,服務器還會記錄下用戶的登錄時間、信息消費習慣、地理位置等大量后台數據。以這些信息為基礎進行數據挖掘,便能夠准確地掌握需要的個人信息。目前為止,位置數據的使用者多是第三方——程序開發員,知名品牌和廣告公司﹔“第二方”(電信商和設備管理者)擁有這些數據,而“第一方”,即我們每個人既無法得到數據也無法支配這些信息。中國移動推出的手機地圖服務,通過你或朋友的手機號嗎,即可找到你自己的位置或你好友的位置,體驗大數據擁有者的概念,發現電信或網絡公司是如何利用大數據對你的日常生活進行跟蹤、監測和控制的。例如,美國國家情報局花更多的錢去挖掘元數據,而不再是竊聽和偷聽通訊內容。元數據指的是關於誰在打電話或發郵件的信息。美國法律和美國政策把通訊內容視為最為私密且最有價值的,但這在今天已經過時了。美國情報和執法部門使用大數據技術,能從手機蜂窩塔得到的數據跟蹤一個人所在的海拔高度,精度足以確定該人在某棟建筑的某一層,甚至能夠通過分析手機數據,尋求預測一個人最可能採取的路線。

當不同的數據流被整合到大型數據庫中后,例如把使用手機的時間和地點與信用卡購物、銀行卡電子收費系統的數據相匹配,數據分析師能獲得一個人生活的不同側面,而在過去,僅靠偷聽他們的談話絕對無法得到這麼多。《自然》雜志發表的報告顯示,打一次移動電話的地點、時間和內容等數據,足以在95%的情況下確定打電話者的身份。通過大數據,數據分析可以發現各種各樣的關聯。

英國《衛報》在2011年英國倫敦暴亂事件中成立了“解讀暴亂”團隊,廣泛使用大數據,幫助讀者更好地理解事態進展和背后原因。與此同時,《衛報》還與學界進行合作,邀請曼徹斯特大學的Rob Procter帶領的學術團隊一起研究社交媒體在暴亂中的作用。后者一共分析了260萬條關於暴亂的推特(Twitter),觀察謠言如何在推特上傳播,不同的用戶在宣傳和散布信息中的功能,以確定推特和其他組織是否煽動了暴亂。《衛報》的“解讀暴亂”數據團隊使用簡單的地圖,顯示暴亂發生地點的貧困程度,讓“暴亂與貧困沒有關系”的主流政治話語不攻自破。他們還制作了一段視頻,將暴亂發生地和參與群眾的家庭住址聯系起來,顯示出“暴亂通勤路線”,建模預測暴亂者最有可能採取的路線。此外,他們還展示出網絡流言的傳播途徑。研究者按照話題將關於暴亂的推特分類,編碼為重復、駁斥、質疑和評論,然后進行可視化處理。該研究發現了主流媒體在流言傳播中的明顯角色以及推特在矯正流言中的作用。

通過大數據的應用程序,人們可發掘大數據的意義。國外已經開發出軟件查詢所處地區的犯罪趨勢,社區醫生的安全執業記錄,或是為他們選出的候選人的政績。


使用微信“掃一掃”功能添加“學習微平台”
(責編:朱書緣、謝磊)
  • 最新評論
  • 熱門評論
查看全部留言

熱點關鍵詞