讀古今文學網 > 大數據 > 第八章 數據開放運動 >

第八章 數據開放運動

一個人做事情的動機,可以分為三類:一是求生,二是社會生活,三是娛樂。當我們的動機上升到一個更高的階段時,我們才會取得進步:不是僅僅為了求生,更是為了改變社會,更理想的是——為了興趣和快樂。01

——林納斯·托瓦茲,Linux系統主要開發者、開源運動領導人,2001年

一個新的世界:從軟件開源到數據開放

開放的社會是這樣一個社會:在這裡,人們已經認識到,要多多少少用批判的眼光來看待禁忌,人們會把個人的決定建立在他們自己的才智和掌控之上。02

——卡爾·波普爾(1902-1994),英國哲學家,1945年

我們正在進入一個新的世界,在這裡,數據可能比軟件還要重要。03

——蒂姆·奧萊理,奧萊理媒體創始人、技術活動家,2007年

1946年,人類發明了第一台計算機。

計算機一開始就是由軟件和硬件共同組成的,但軟件和硬件的發展,早期卻未能並駕齊驅。相反,在很長一段時間裡,軟件都是作為硬件的附屬而存在的,甚至「軟件」(software)這個單詞,也遠遠滯後於「硬件」(hardware)這個單詞,直到1958年才正式形成的。

其中的原因,是因為最早的軟件對硬件的依附性很強,換一個硬件平台,就可能無法運行;同一個軟件產品,即使運行在相同的硬件平台上,其配置不經過修改,也無法銷售給其他的客戶。

因為可移植性差、通用性低,這時候的軟件,大部分都是由硬件製造商一併開發的,作為硬件的一個搭配,免費提供給計算機的購買者。因為免費,軟件的原始代碼(也稱源代碼)大部分時候都是公開的。也正因如此,幾乎所有人都相信,軟件的開發必須量體裁衣、逐一定制,軟件本身難以成為一個大規模銷售的獨立產品。

但接下來的半個世紀,軟件產業卻經歷了從無到有、跌宕起伏的發展,形成了一個龐大的產業。在這個風起雲湧的過程中,一些公司和個人,在其中扮演了極為重要的角色。

1955年,IBM的兩名僱員辭職,創辦了全世界第一家專門的軟件公司:Computer Usage Company(CUC)。儘管走的是「一對一定制」的商業模式,CUC也不斷發展壯大,到1967年,已經擁有了700多名僱員、年收入上千萬美元,成了上市公司。

在軟件業的發展過程中,美國聯邦政府也起了舉足輕重的作用。由於軟件的可通用性低,整個軟件產業最早是由個別大項目推動的。這些大項目,基本上都是由聯邦政府認購、買單。其中最大的項目之一,是美國國防部和IBM在1959年開始合作的一個防空項目(Semi-Automatic Ground Environment),該項目致力於用計算機軟件處理雷達收集的信號,偵察、跟蹤天空飛行物的活動。

這個項目,前後跨度近30年,耗資近百億美元,它不僅幫助IBM成為軟件產業的巨頭,也為美國培養了一大批程序員。類似的大項目成了程序員的搖籃和「西點軍校」。在這些項目中成長起來的技術中堅,後來散佈到各個行業,成為各個領域軟件開發的帶頭人。正是聯邦政府這些大項目帶來的人才優勢,幾十年以來,美國的軟件業一直在全世界佔據領先地位。

1969年6月,IBM宣佈,將從1970年起停止免費配送軟件的做法,軟件和硬件將分開定價。這個軟、硬件分拆的決定進一步推動了軟件行業的興起,新的軟件公司如雨後春筍般破土而出,用戶開始在硬件提供商之外尋找、購買軟件解決方案。

1970年代中期,個人電腦問世,隨著電腦進入千千萬萬個普通家庭,軟件開始真正具備成為大眾化商品的可能性。

但真正把軟件產業推進到商業帝國的,卻不是IBM,而是一個年輕的後起之秀:比爾·蓋茨。

蓋茨相信軟件行業蘊藏著巨大的商機。1975年,20歲的他從哈佛大學退學,創辦了微軟公司,致力於軟件開發。此後二十年,如滾雪球一般,微軟公司迅速擴大,這位輟學者,最後一手造就了一個世界級的軟件帝國。

1976年2月,蓋茨發表了一封著名的信件:《致愛好者的公開信》。他在信中譴責一些用戶沒有付費就使用微軟公司的軟件產品,並斷言,這種不尊重版權、非法複製的做法將會阻礙、打擊軟件業的發展,他質問道:

「有誰會願意免費、義務地從事如此專業的工作?哪個業餘愛好者能投入3年的人力去開發、調試、編寫文檔,然後免費發佈一個軟件產品呢?」04

蓋茨的這封信被後世認為是軟件產業的一個重要里程碑。

此後,軟件被理所當然地視為一種專利,是私有的,幾乎所有的軟件公司都開始拒絕公佈源代碼,商業軟件開始大行其道。這種拒絕公開源代碼的軟件,後來被稱為「專有軟件」(Proprietary Software)。比爾·蓋茨的聲明,引領了一場軟件商業化的大潮,也導致了專有軟件的盛行。

長江後浪推前浪。在這個迅速崛起、瞬息萬變的新生產業裡,英雄輩出、各放光彩。這些英雄人物,不僅不拘於學歷,更不拘於權威和禁忌,他們傾聽內心的聲音、服從理想的召喚。

比爾·蓋茨固然是一代英雄,但他很快就受到了挑戰。他的論斷——「沒有人能夠免費地從事專業性的開發工作」、「軟件的開發應該專有、應該封閉」,後來被事實證明是錯誤的。

新的挑戰者具有很強的理想主義色彩。他們反對專有、反對封閉、反對商業化,他們認為封閉性的軟件是一種自私、狹隘的做法,束縛了人類的創造性,阻礙了軟件技術的傳播和交流;他們強調自由、強調開放、強調創新,要求軟件開發人員公開原始代碼,認為這種公開不僅能提高軟件行業的效率和效能,還有利於學習、交流和創造,為人類社會貢獻最大的價值。

1983年,麻省理工學院人工智能研究所的一名資深程序員理查·斯托曼(Richard Stallman)發起了著名的GNU項目,目標是通過程序員之間自由的、志願的協作,開發一套自由的、開放的操作系統,與定價銷售的專有操作系統抗衡。1985年,他又成立了自由軟件基金會(FSF),為GNU項目提供法律、經濟和技術上的支持。這個不可思議的浩大工程,在1991年,因為另一位偉大程序員林納斯·托瓦茲(Linus Torvalds)的突出貢獻,最後成功實現。

自由軟件運動和開源運動三劍客

理查·斯托曼:高中時代就開始為IBM編程,發起自由軟件運動的時候不到30歲。自由軟件運動的訴求,其實不同於後來的開源運動,它強調自由修改而不是免費,但對開源運動產生了巨大影響。

林納斯·托瓦茲:完成Linux內核第一個版本的時候,還是一名21歲的在校學生。

埃裡克·雷蒙:著名的黑客05,不到20歲就開始編程,不僅是開源運動的領袖,也是黑客文化的代言人,有多本著作問世。

三個人都是著名的程序員,先後成為自由軟件運動、開源運動的領袖。(圖片來源:維基百科)

這個免費的操作系統就是現在大名鼎鼎的「Linux」。

從1990年代起,互聯網的普及更為轟轟烈烈的軟件自由運動推波助瀾,這時候的開放原始代碼,不僅意味著在互聯網上公開自己的代碼,還意味著和分散在世界各地的程序員通過網絡進行交流和協作。

1997年,埃裡克·雷蒙(Eric Raymond)出版了《大教堂與集市》,他在這本書中詳細地論述了開放原始代碼的好處。他將傳統的從上至下進行控制的軟件開發方法比喻為「大教堂」,而通過互聯網上公開分享自己的代碼,就好像把一件商品放在了集市之上,自由地讓別人瀏覽、評價。雷蒙總結道:

「足夠多的眼睛,將使所有的錯誤都無所遁形。」06

雷蒙認為,Linux的核心開發人員林納斯·托瓦茲就是這種集市模式的首創者,他因此將以上結論稱為林納斯定律(Linus' Law)。

集市模式的關鍵,不僅在於開放,更在於通過網絡的交流、分工和協作。它的提出,不僅對軟件開發本身,甚至對互聯網時代的商業模式,都產生了深遠的影響。例如,維基百科就是按集市模式通過大眾自由協作而產生的,而網絡版的大英百科全書則是典型的大教堂模式。

隨著越來越多的公司和個人採納了開放源代碼的做法,1998年2月3日,主張開放代碼和軟件自由的各路精英齊聚硅谷,為這場運動正名,最後一致同意將這種發佈代碼、其他程序員可以對其進行自由修改並重新發佈的做法稱為「開源」(Open Source)。沒多久,一個新的公益組織開源促進會(OSI)誕生了,雷蒙擔任了首任主席,該組織很快為開源軟件制定了十個標準,這些標準,獲得了全世界軟件行業的認同。

開源,不僅意味著以開放的姿態進行知識共享,還代表著自由、平等、協作、責任和樂趣等等理念。

林納斯曾經就開源問題與微軟公司的高層展開過激烈的辯論。微軟公司批評開源運動嚴重地破壞了知識產權、擾亂了軟件市場,林納斯則反擊微軟是一人獨大、金錢障目,他後來解釋他的初衷說:

「一個人做事情的動機,可以分為三類:一是求生,二是社會生活,三是娛樂。當我們的動機上升到一個更高的階段時,我們才會取得進步:不是僅僅為了求生,更是為了改變社會,更理想的是——為了興趣和快樂。」

這段話,是開源領袖們的價值宣言,也深刻地解釋了開源運動為什麼能夠成功的原因,因為其經典,被稱為「林納斯第二定律」。

在軟件開源的運動當中,還有一個人佔有歷史性的地位,他就是世界聞名的計算機書籍出版商蒂姆·奧萊理(Tim O'Reilly)。奧萊理也是開源運動的堅定支持者,他常常自己掏腰包,贊助開源社區的活動和會議。1999年,他的出版社奧萊理媒體(O'Reilly Media),推出了全世界第一本開源文集:《開源革命之聲》07。此後,「開源」的概念才開始慢慢走出程序員的群體,成為一個廣為人知的概念。

蒂姆·奧萊理

愛爾蘭移民,文科畢業生,後來對計算機產生興趣,成為一名致力於「傳播創新知識——改變世界」的計算機圖書出版人。他對他旗下出版社的定位是「新技術的轉移者」,他也是「Web 2.0」一詞的首創之人。(圖片來源:維基百科)

伴隨著他們的搖旗吶喊,越來越多的開發人員和軟件公司開始加入開源運動的行列。進入21世紀以後,開源軟件已經深入人心,幾乎整個軟件業都認識到了開放源代碼的重要性及其好處,開源軟件的產品也數不勝數、衍伸到各個領域,最早與開源勢不兩立的微軟公司,也開始擁抱開源的做法。時至今日,要想在任何一個行業,找到一個沒有開源軟件的例子,已經相當困難。

本書第四章曾經談到,軟件是由代碼和數據共同組成的,「開源」,指的只是開放代碼,並不包括數據。但當開放代碼已經成為共識和現實的時候,新一代的創新者,自然又將眼光投向了數據。

考察軟件構成的一個角度

雖然同為軟件的一部分,但開放數據(Open Data)和開放代碼卻大不相同。開放代碼面向的對象僅僅是程序員,也就是說,它停留在技術的層面;但數據的開放,其涉及面卻廣得多,它不僅和技術人員相關,還與數據的來源、性質以及過去和未來的使用人員都息息相關。

開放數據也不僅僅意味著公開數據。要讓數據可以重複使用、自由加工,數據公開的格式至關重要。還有,數據不像代碼,代碼無關個人,數據卻可能涉及個人的隱私。

所以,什麼樣的數據可以開放、應該開放?又以什麼形式開放?誰來開放?這些,都是要在開放之前必須回答的問題。

也因為這種種不同,數據開放面臨更大的挑戰和阻力,數據開放也沒有像代碼開放一樣在商業領域興起,數據開放的訴求,首先直指公共領域的公共數據,也就是美國聯邦政府收集、擁有的數據。

當然,站在這個潮頭浪尖的,還是一批年青的技術精英。他們相信,在互聯網時代,無論是代碼還是數據,只有開放,才能集聚群體的智慧、激發創新的力量、放射出更大的價值,真正推動社會的進步。

2004年,普林斯頓大學的本科生喬舒亞·陶伯拉(Joshua Tauberer)建立了美國民間首個公共數據的開放網站:TrackGov.us。

喬舒亞·陶伯拉

高中時代就開始學習編程,2000年入讀普林斯頓大學心理學專業,利用在校的業餘時間開發了TrackGov.us。2010年他獲賓夕法尼亞大學語言學博士,目前擔任公益網站Popvox.Com的首席技術官。

TrackGov.us是一個關於國會立法法案的數據開放網站。前文談到過美國國會的立法步驟,美國是一個法律大國,在美國國會,任何時候都有一萬多個法案處於討論狀態,每一個法案,都涉及千千萬萬公司和個人的利益。這些法案由誰發起、哪些議員支持、哪些議員反對,投票的結果、修改的次數、通過的時間、法案的內容以及當前的狀態等等記錄,不僅可以在這個網站上查詢,還可以通過RSS郵件跟蹤,所有的數據記錄,都可以下載、重複使用。

TrackGov.us每月有近百萬的點擊率。毫無疑問,該網站給學術研究人員帶來了極大的方便,也為關心某個法案的公司、個人提供了在線查詢跟蹤的工具,同時,這些數據還成為新聞界監督政府的利器。

2008年5月,奧巴馬、希拉裡、麥凱恩3人的選戰正酣。根據TrackGov.us的數據,《紐約時報》揭露:從2007年的財政年度始,國會共進行了220次投票,但因為忙於競選,奧巴馬、希拉裡各自缺席151次,麥凱恩更甚,缺席164次,高達75%。該報批評說,他們沒有履行職責,卻照拿工資。08

陶伯拉曾經解釋自己建立TrackGov.us的初衷:大部分美國人都不瞭解美國國會的立法程序,他想幫助普通公民增強對於國會的認識,縮小國會運轉的真實情況與他們想像之間的差距。

2007年12月,又是在蒂姆·奧萊理的召集下,陶伯拉和其他29名開放公共數據的推動者共聚奧萊理出版社的加州總部。通過兩天的會議,他們制定發佈了開放公共數據的8條標準和原則。09奧萊理在會上感歎說:

「我們正在進入一個新的世界,在這裡,數據可能比軟件還要重要。」

公共數據開放的8大基本原則

1.數據必須是完整的

2.數據必須是原始的

3.數據必須是及時的

4.數據必須是可讀取的

5.數據必須是機器可處理的

6.數據的獲取必須是無歧視的

7.數據格式必須是通用非專有的

8.數據必須是不需要許可證的

這是歷史上第一次開放數據的正式集會,也是美國民間第一次嘗試建立開放數據的標準和共識。會議將「數據」定義為「一切以電子形式存儲的記錄」,會議聲明:

我們並不決定什麼樣的公共數據可以開放,我們僅僅為開放制定標準和原則,定義什麼才是「開放」。

從這8大原則可以看出,數據開放運動沿襲了軟件開源運動的很多訴求,例如通用非專有、機器可處理、獲取無歧視等等,數據開放運動可以看做是開源運動在軟件領域的一個深化。

但這種深化,已經不僅僅局限在技術領域。開源運動對美國社會乃至全世界的影響,已經滲透到政治、文化、社會生活等各個方面,衍生出開放政治(Open Politics)、開放政府(Open Government)、開放媒體(Open Media)、開放城市等等一系列的運動和口號。

開放,已經成為互聯網時代一股不折不扣的浩蕩風潮。

這股風潮的觸發和形成,其起點還是本書第二章探討的摩爾定律。正是由於數據存儲器的性能不斷上升、價格不斷下降,人類複製、傳播信息的邊際成本一降再降,再加上互聯網的出現,信息的交流和共享變得前所未有地簡單、方便、快捷,人類開放的夢想和渴望才得以一個接一個地實現。

總統的雄心:公共財政支出透明

聯邦政府掌握和維護的信息是整個國家的資產和財富。10

——奧巴馬,2009年1月21日

如果我們坐等他人,那改變就不會到來。我們自己——就是我們一直在等的人,我們自己——就是我們所要尋求的改變。11

——奧巴馬,競選總統時的演講,2008年2月5日

正是在陶伯拉發佈第一個數據開放網站TrackGov.us的同年,2004年11月,奧巴馬贏得了聯邦參議員的選舉。

次年1月,他躊躇滿志,從芝加哥飛往了華盛頓。

有理由相信,初起乍興的數據開放運動,也進入了他的視野。

因為,作為聯邦參議員,奧巴馬就任之後成功推出的第一份法案,就是一份有關數據開放的法案。

美國國會參議員的任期,是6年一屆。奧巴馬在參議員的位置上,只干了3年多。根據TrackGov.us網站上發佈的數據,在他短暫的參議員生涯當中,奧巴馬作為第一發起人提出過137個法案,但最終成為法律的,卻僅僅只有2個。奧巴馬還作為合署人和其他議員共同發起過600多個法案,最後通過的也屈指可數。

奧巴馬成功交出的第一份答卷,是2006年4月作為主要合署人和共和黨參議員科伯恩(Tom Coburn)聯合推出的《聯邦資金責任透明法案》(FFATA)12,這個法案後來產生了廣泛的影響,也被稱為《科伯恩—奧巴馬法案》。

這個法案要求聯邦政府向全社會開放所有公共財政支出的原始數據,這些數據,包括政府和私營機構的購買合同、公共項目的投資、直接支付以及貸款等等明細。其基本理念和TrackGov.us是一樣的:建立一個完整的、專業的公共支出數據開放網站,以統一的格式提供可以下載的數據,以供公眾查詢使用。

奧巴馬是民主黨員,科伯恩屬共和黨,作為一個跨黨提案,該法案在參眾兩院都高票通過,2006年9月,經小布什簽署後,成為法律。2007年,根據該法的規定,網站USAspending.gov上線發佈,成為美國聯邦政府發佈公共支出信息的門戶網站。

USAspending.gov是個巨大的數據開放網站,可以對聯邦政府2000年以來高達3萬億的政府資金使用情況以及30多萬個政府合同商所承包的項目進行跟蹤、搜索、排序、分析和對比,其數據每兩周更新一次。網站上線之後,受到了社會各界的極大好評,獲得了「政府搜索引擎」(Google for Government)的美譽。

當然,這個法案的產生和通過,並不僅僅是奧巴馬和科伯恩兩人力推的結果。

2006年9月8日,布什總統簽署《科伯恩—奧巴馬法案》,左三為奧巴馬。(圖片來源:網絡)

公共支出數據的開放,真正的先行者,還是美國民間的普通公民。

USAspending.gov網站建立的背後,更有一段國會、政府和公益組織3方攜手合作的佳話。

上文說到,開放數據的運動興起之後,首先直指公共數據。有一批社會活動家和公益組織,多次召開民間會議,發起遊說活動,督促政府開放公共數據,政府財政支出的數據正是其中的焦點。

「OMB監督」(OMB Watch)就是這其中最執著、強力的行動者之一。這是一個位於華盛頓的公益組織,由加裡·巴斯(Gary Bass)於1983年創辦。「OMB監督」以監督政府的預算、稅收和工作績效為己任。它的直接監督對象是總統行政辦公室下屬的行政管理預算局,該局簡稱為OMB,這也是該組織之所以命名為「OMB監督」的原因。

加裡·巴斯

「OMB監督」的創建者,也是信息公開的主要鼓吹者。

「9·11」之後,他仍然堅持政府應該加大信息公開的力度。他在「OMB監督」工作了28年,除了fedspending. org,還在1986年籌建了知情權網絡(Right-to-Know Network),該網站為公眾提供環境保護和空氣質量的數據。1999年以來,巴斯連續10年當選最具影響力的公益領袖(Nonprofit Times Power and Influence Top 50)。

美國的聯邦政府其實很早就開始公開發佈公共支出的信息,但這種發佈是零散的、不系統的,其發佈形式可能是新聞發言、文字簡報,也可能是電子數據,很不統一。2005年,巴斯意識到,如果能將聯邦政府全部的開支數據統一發佈在同一個網站,全社會就可以更好地查詢、研究和監督聯邦政府的開支和預算。

巴斯後來為這個項目發起了專門的社會募款活動。通過籌款集資、整理數據、開發網站、接洽政府等一系列的工作,2006年,「OMB監督」推出了美國首個公共支出的數據開放網站:Fedspending.org。

Fedspending.org能夠逐條跟蹤、記錄、分析、加總OMB發佈的每一筆財政支出。它推出之後,受到了全國輿論的好評,《洛杉磯時報》盛讚其為「財政透明的起點」。

正是受到這個網站的直接啟發和幫助,科伯恩、奧巴馬發起了《聯邦資金責任透明法案》,奧巴馬本人,也在這個法案的草擬和推行過程中,和「OMB監督」建立了合作關係。

《聯邦資金責任透明法案》通過之後,根據它的規定,行政管理預算局也必須建立一個和Fedspending.org類似的網站,向全社會統一開放聯邦政府所有的公共支出數據。

就功能而言,這個待建的政府網站和「OMB監督」已有的網站是相同的。但不同的是,一個是「民營」,一個是「官辦」。巴斯在獲悉之後,主動走訪了行政管理預算局,表明自己願意提供技術方面的幫助。行政管理預算局的副局長謝伊(Robert Shea)對此大感意外,他是新網站建設的負責人,在他眼裡,「OMB監督」就是一隻徹頭徹尾的「牛虻」,一年到頭對他提意見、叮人咬人。對巴斯主動提供的幫助和合作意向,謝伊一不習慣、二不情願。

這時候,奧巴馬從中斡旋,通過他的穿針引線,「官」「民」雙方最後形成了合作關係。新生的USAspending.gov網站幾乎原封不動地使用了Fedspending.org的數據庫、應用程序接口(API)和在線文檔,行政管理預算局因此大幅節約了經費,「OMB監督」也獲得了60萬美元的報酬,可謂雙贏。13

這個例子,證明了監督者和被監督者之間的關係也並不總是對立的,兩者之間的關係是可以轉變的,政府和公益組織之間也可以開展合作。奧巴馬對此體會很深,這正是他上任第一天在他首份總統備忘案中闡述的「多方協作」概念:

「政府應該是多方協作的。多方協作讓美國人民積極地參與政府工作。各行政部門和機構應利用新的工具、方法和系統,在各部門之間、各級政府之間全面協作。此外,還要與非營利組織、企業和個人進行協作。各行政部門和機構要廣泛徵求公眾的反饋,以評估協作的效果,確定新的協作機會。」

當然,不可否認,奧巴馬能站到開放數據的前沿,和他個人的志趣和愛好也有很大的關係。

有評論說,奧巴馬是美國歷史上對高科技最感興趣的總統。他上社交網站、用智能手機,並親自發推特(即微博),擁有1000多萬推特粉絲。2008年的總統大選已經成為歷史,不少評論家、分析家都認為,正是因為嫻熟地利用了信息技術助選,奧巴馬才得以入主白宮。

在他的橢圓形辦公室裡,除了黑人領袖馬丁·路德·金的肖像和家人的照片,奧巴馬還擺放著不少機械發明的模型。在他書架的頂層,是1877年威廉姆斯(Henry Williams)發明的汽船活葉明輪模型,底層則擺放著1874年皮爾(John A. Peer)設計的齒輪加工機床模型。白宮的文物館長埃爾曼(William Allman)曾經評論說,這些金屬模型反映了奧巴馬的個性和特點:他對「美國的歷史、科技以及創新」都有濃厚的興趣。

《聯邦資金責任透明法案》的通過和效果,加上民間的強烈訴求,都激發了奧巴馬的雄心。幾年的參議員生涯,奧巴馬參與聯署過數百個法案,涉及社會民生的方方面面,他清楚地知道,公共財政支出的數據只是聯邦政府所擁有數據中的很小一部分,可謂九牛一毛、冰山一角。

2007年2月,奧巴馬宣佈參選總統。11月14日,他作為總統候選人,來到了硅谷山景城(Mountain View),訪問了谷歌公司的總部。在和谷歌員工的對話交流中,他再一次談到了建設USAspending.gov網站的初衷:

「人民知道得越多,政府官員才可能更加負責任。」

奧巴馬的橢圓形辦公室,其辦公桌正後方的桌子上擺滿了他與太太及兩個女兒的照片,奧巴馬曾經在接受採訪時解釋說,這些照片在提醒他「為什麼要做現在的事情」。

奧巴馬的書櫃,上下兩層各擺著兩個機械模型,都是歷史上偉大的發明。

(圖片來源:www.whitehousemuseum.org )

他在演講中說:

「互聯網可能是歷史上最偉大的開放工具……作為總統,我將把政府的數據用通用的格式推上互聯網。我要讓公民可以跟蹤、查詢政府的資金、合同、專門款項和遊說人員的信息。為了確保每一個政府機構都能跟上21世紀的標準,我將會任命我們國家的首位首席技術官(CTO)。」14

當他講到要把政府的數據推上互聯網的時候,他的演講被一陣掌聲打斷,當他講到要開創歷史、任命「聯邦政府首位首席技術官」時,人群中爆發出一陣更為熱烈的掌聲。

2009年1月21日,奧巴馬走馬上任,入主白宮。

他果然很快兌現了諾言。

數據民主:印裔首席信息官的崛起

這是一場數據民主化的運動,我們正在把信息的力量放到美國人民的手中。15

——維偉克·昆德拉,聯邦政府首任首席信息官,2010年

2009年3月5日,奧巴馬就任不到兩個月,就任命了聯邦政府的首席信息官;4月18日,他又任命了首位首席技術官。

這是奧巴馬創設的兩個全新的職位。

奧巴馬的創意激起了聯邦政府一系列的創新。此後,聯邦政府各個部門不僅出現了越來越多的首席信息官,2010年,聯邦政府通信委員會(FCC)甚至還率先設置了首席數據官(Chief Data Officer)的職位。

獲任聯邦首席信息官的是一位年輕的印度裔移民:維偉克·昆德拉(Vivek Kundra)。作為美國聯邦政府歷史上第一位首席信息官,他立刻引起了全國的關注。

和奧巴馬一樣,昆德拉的童年幾經遷徙。他1974年出生在印度新德里,2歲隨父母遷居坦桑尼亞,11歲全家移民美國。他曾經坦言,這些跨國經歷加深了他對於不同國家、不同制度的理解。昆德拉後來加入了美國國籍,他說他熱愛美國的民主制度,他甚至選擇費城憲法中心作為自己舉辦婚禮的地點。

昆德拉畢業於馬裡蘭大學,獲得過信息管理的碩士學位。他畢業之後,經營過幾個創業公司,但並不成功。2001年,他決定加入公共領域。「9·11」事件發生的當天上午,他正在阿靈頓縣政府面試「技術主任」的職位。面試被世貿中心的撞機警報打斷了,面試官立即打開了電視,第二架飛機正撞向世貿中心的玻璃外牆。屏幕上濃烈的黑煙和火焰令他震驚,也堅定了昆德拉進入公共領域、服務社會的決心。

昆德拉後來回憶道,這特殊的一天,標誌著他在公共領域職業生涯的起點。

昆德拉後來還在弗吉尼亞州州政府的技術管理部門工作過。2007年5月,他被華盛頓特區的市長任命為該市的首席技術官。新市長芬蒂(Adrian Fenty)是一位70後,他重視新技術的應用,強調用「透明和開放」來打擊腐敗。

維偉克·昆德拉(Vivek Kundra)

聯邦政府第一任首席信息官,擔任此職時不滿35歲。

阿尼西·喬普拉(Aneesh Chopra)

聯邦政府第一任首席技術官,和昆德拉一樣,他也是印度裔移民、70後。

(圖片來源:維基百科)

作為首都的首席技術官,昆德拉帶領著一支600人的技術隊伍、掌握上千萬美元的預算。這個位置,成了他真正起飛的平台。

但昆德拉的崛起,並不僅僅是因為這個職位以及其帶來的資源。他的機遇,更多的是因為華盛頓的「地利」。

本書第三章曾提到,1994年,紐約街頭警察梅普爾利用地圖和數據打擊犯罪,他設計了「CompStat」的軟件。當這個軟件橫空出世之後,在美國的治安領域獲得了巨大的認可,成為一種警務管理模式,迅速被全國各地的警察部門倣傚。

隨著「CompStat」席捲全國各地的警察部門,有人在動更多的腦筋:能不能把這種數據分析的模式推廣到整個城市的管理,而不僅僅局限於治安領域?

奧馬雷(Martin O'Malley)就是這個想法的認真嘗試者。

他是馬里蘭州巴爾的摩市的市長。2000年,在他的推動下,該市推出了基於整個城市管理的「CitiStat」。像「CompStat」一樣,「CitiStat」一推出,就獲得了成功,引起了全國的關注,後來也獲得了哈佛大學的美國政府創新獎。

沒過幾年,奧馬雷又當選為馬里蘭州的州長,他又把這個項目推廣到州一級的政府,推出了「StateStat」。

這自然引起了其他一些城市的倣傚。

華盛頓特區正是「CitiStat」的追隨者。2004年,他們推出了「DCStat」的項目。16

為了建設「DCStat」項目,華盛頓特區收集整理了大量的數據。

這些數據才真正成就了昆德拉。他一上任,就給市長芬蒂建議,「DCStat」的數據不僅僅要給城市的管理者分析、使用,還應該對全民開放。在新市長的支持下,昆德拉推出了「城際數據倉庫」(Citywide Data Warehouse)項目,把華盛頓特區政府擁有的各類公共數據推上互聯網,允許全球任何人訪問和下載。昆德拉把這種做法稱為「數據民主化」(Democratizing Data)。

奧馬雷市長在召開CitiStat的管理分析會議,他強調用數據分析的方法推動城市績效管理。

奧馬雷是律師出身,他1999年當選巴爾的摩市的市長之後,第一個政績就是推行「CitiStat」,他的成功獲得了美國很多個城市的關注和倣傚。奧馬雷連任兩屆市長,並於2006年當選為馬里蘭州州長。(圖片來源:Center for American Progress)

之所以稱之為「數據民主化」,是因為「城際數據倉庫」開放的不僅僅是一個專業領域的數據,而是大量與民生相關的數據。2004年陶伯拉建立的TrackGov.us專注於立法,2007年奧巴馬推出的USAspending.gov集中在公共支出,昆德拉開放的卻是更綜合、更廣泛的數據,例如學區學位的情況、青少年的犯罪情況、交通事故發生的時間和地段,以及公用場所的租用情況等等與市民日常生活息息相關的數據。而這些數據,曾經僅僅是政府管理人員的內部決策參考,是官員的「專利」,市民大眾無權使用。

當然,作為首席技術官,昆德拉的成就並不僅僅局限在城際數據倉庫的項目。在他任職的一年半中,他試圖在公共管理的各個環節中使用最新的信息技術:他將市政府的微軟WORD辦公軟件升級為可以在線協同合作的Google在線文檔;他要求市政合同的投標、開標過程一律錄像,並在Youtube的視頻網站上公開。他還組織開發了一個「數字公民廣場」,允許居民通過臉譜網站(Facebook)來提交更換駕駛證的申請;下雪天,居民還可以上網實時查看街道積雪的情況、掃雪的進度。

昆德拉的另外一個「地利」在於:他和奧巴馬同在國家的政治心臟。作為首都,華盛頓是一個只有60萬人口的小城,昆德拉勇於開拓、敢於變革的形象自然引起了奧巴馬的側目。2008年11月,奧巴馬取得了總統大選的勝利、拿到了白宮的入場券,他立刻邀請昆德拉加入他的白宮交接團隊,為入主白宮做準備。

城際數據倉庫項目的主頁界面

截至2011年12月,華盛頓特區「城際數據倉庫」的項目已經開放了484組數據。(圖片來源:data. octo.dc.gov)

昆德拉當然接受了邀請。回到本書的序幕,2009年1月21日,上任第一天,奧巴馬簽署了他的首份總統備忘案:《透明和開放的政府》。在這份文件中,他闡述了他的執政理念:通過公民參與、多方合作,建設一個前所未有的開放政府。他還在備忘案中命令聯邦政府的首席技術官要會同行政管理預算局(OMB)在120天以內制訂出一個開放政府的具體行動方案。

120天,也就是從1月21日算起,限期4個月。

接下來的工作,當然是緊鑼密鼓。3月5日,奧巴馬提名昆德拉擔任聯邦政府的首席信息官,很快獲得了國會的批准。奧巴馬在任命書中說:

「首席信息官將和首席技術官密切配合,實現總統關於技術的設想和計劃。……我命令昆德拉發揚美國的創新精神,應用科學技術的力量提高政府的績效、降低政府的開支。作為首席信息官,他將確保我們的政府以最安全、開放和高效的方式運作。」17

經過幾個月的交接和磨合,昆德拉已經對於總統「關於技術的設想和計劃」以及奧巴馬的雄心都心領神會。他清楚地知道自己的使命。3月11日,昆德拉上任還不到一周,就召開了聯邦政府各部門信息主管的工作會議,拿出了如何提高績效、增加聯邦政府開放性的主體計劃。

這就是:為聯邦政府建立一個統一的數據開放門戶網站——Data.Gov,全面開放政府擁有的公共數據。

美國公共數據開放的編年里程碑

Data.Gov:從旗艦初航到保「數」運動

Data.Gov的主要目標是開放聯邦政府的數據,通過鼓勵新的創意,讓數據走出政府、得到更多的創新型運用。Data.Gov致力於政府透明,全力把政府推向一個前所未有的開放高度。它帶來的開放將鞏固我們國家的民主,提高政府的效率和效能。18

——Data.Gov的目標和使命陳述

但昆德拉很快意識到,聯邦政府畢竟不是一個小小的華盛頓特區。現在,他要面對的是美國政府15位內閣部長,70多個獨立機構的局長、主任和主席。部中有部、局中有局,僅僅一個數據的開放,就可能要經過層層的審批和反覆的磋商。

這層層關卡的背後,是一種沿襲了上百年的行政文化。這種文化,雖然看不見、摸不著,卻無處不在。

從古至今,所有的政府,都帶有保密、封閉的文化基因。雖然一談到透明和開放,大部分人都會認可這是正確的價值觀,但一旦要自己透明、要自己開放,那開放和透明就立刻變成了一種威脅。面對龐大的公共信息,政府首腦的第一反應往往是「安全第一、保密為上」;具體到一線的工作人員,也是「多一事不如少一事」,直接打上「保密」的標籤,最為簡單省事。

與當年的《信息自由法》、《電子信息自由法》不同的是,這一次並不是國會「逼宮」,而是聯邦政府領導層自發的改革。但儘管總統已經表態,聯邦政府各個部門的頭頭腦腦還是對開放數據的做法感到憂慮,他們表達了各式各樣的反對意見,一時甚囂塵上,爭議主要集中在以下幾個方面:

1.原始數據之爭

是要開放最原始的數據,還是經過加工和解釋的數據?如果數據可以加上解釋,各部門又應該加上多少程度的說明、解釋和觀點呢?

昆德拉主張開放原始的數據。但反對者認為:數據是死的,分析是活的;同一組數據,不同的時間、不同的人可能會有不同的解讀。如果不加上自己的註解和觀點,數據的使用者、分析者可能會得出與政府部門不一樣的結論。此外,很多數據屬於高度敏感的指標,例如價格消費指數、失業率等等,對於它們的解讀,可能會影響一個行業、一個地區甚至整個國家的經濟發展走向。開放公共數據的初衷之一是提高公眾對於政府的信任,如果出現不同的解讀,可能適得其反,影響政府的公信力。那不是搬起石頭砸自己的腳嗎?

2.數據安全之爭

如前文所述,數據整合往往會產生「1+1>2」的效果。兩組分別貌似安全的數據,一旦整合相聯,可能會產生意想不到的結果,對國家的安全產生威脅。

反對數據開放的人認為:互聯網上的開放,是面對全世界的開放,國際政治錯綜複雜,國家利益很容易在不知不覺中受到損害。

3.數據質量之爭

各個政府部門之間存在職能交叉,收集的數據也不免有所交叉,如果兩個部門的數據不一致,應該以誰的數據為準呢?又該如何向公眾解釋呢?即使對同一性質、同一類別的數據,新數據還在源源不斷地產生和收集,誰來保證新舊數據之間的一致性呢?

有人認為:由於跨部門、跨時間而產生的數據不一致難以消除,如果數據的質量沒有保證,數據的開放給政府帶來的不是透明和信任,而將是層出不窮的麻煩。

4.數據粒度之爭

即使同一組數據,政府也存在多個版本和形式,應該開放哪一組呢?是粗線條的?還是粒度最小、最細的數據格式?

有人主張數據開放宜粗不宜細。

昆德拉主張:構建語言的單位不是句子,而是字母。人們用字母來創建單詞、句子和文章。數據也一樣,要用最小的粒度把數據呈現給用戶,讓不同的用戶各取所需,無論是警察還是社區居民,自己去決定怎樣組合它們。可能的組合是無窮無盡的。這樣數據才能發揮全部的潛在價值。

5.數據價值之爭

必須首先開放社會最需要的數據,即高價值的數據,這是共識。但何為高價值?卻眾說紛紜。

昆德拉認為:價值本身是一個基於主觀的定義。同一組數據,在不同的時間、對於不同的對象,其價值是變化的。如果缺少背景,數據本身沒有任何價值。豐田汽車召回事件發生之前,它的油門數據很少人會感興趣。但事故一發生,就會有很多人需要它的數據。

昆德拉主張:凡是能增強公眾對政府部門的問責能力和政府部門的反應速度、提高公眾對於政府機關及其運作的瞭解、推進部門的核心使命、創造經濟發展的機會或者滿足公眾特定要求的數據,就是高價值的數據。

6.網站虛實之爭

Data.Gov的網站僅僅是一個數據的集散地,還是既提供數據又提供專門的分析工具?即便是集散地,也有虛實之分,是一個真正的數據倉庫,還是一個數據索引庫,源數據仍然保存在各個部門?

很多人認為Data.Gov應該是一個真正的數據集散地。奧巴馬的公共支出開放網站、華盛頓的城際數據倉庫都是真正的數據集散地。但昆德拉主張:聯邦政府的部門太多,難以維護,Data.Gov網站應該是個索引庫,各個部門仍然是各自數據的真正所有人和維護人。但用戶從索引的鏈接跳躍到實體的數據,點擊鼠標的次數不能超過3下。他還建議,網站建立初期,應該提供一些分析工具。

對每一個問題,昆德拉的心裡其實都有自己的答案。但他知道,他還無法立刻說服大大小小的各級官僚。如果任由討論繼續下去,可能一兩年也不會達成共識和實質性的結果。他堅信開放數據是正確的方向,他認為,如果一個社會真的要把開放作為一種正確的價值觀來對待,就必須付諸行動。

他決定重點突破,先從一些沒有爭議的數據開始,並快刀斬亂麻,盡快推出一個技術平台。

2009年5月21日,距離奧巴馬簽署《透明和開放的政府》整整120天,Data.Gov上線發佈了。

Data.Gov按原始數據、地理數據和數據工具三個門類組織開放的數據。上線的第一天,即使包括地理數據,這個新生網站上也僅僅只有47組數據、27個數據分析工具。

但即便如此,作為一個全國性的創舉,Data.Gov還是受到了新聞界和大眾的關注。上線第一天,該網站接受了210萬的點擊量,第二天又收穫了250萬的點擊量。前兩個月,創下了2000多萬次的訪問總量。

在眾多的關注者中,有一家與眾不同。他們從昆德拉一上任,就憋足了勁,全力支持Data.Gov,為它的每一個進步大聲鼓呼。

這就是陽光基金會(Sunlight Foundation)。

就在Data.gov上線的同一天,5月21日,陽光基金會的主任艾倫·米勒(Ellen Miller)宣佈設立25000美元的獎金,舉辦程序員公共數據開發大賽(App for America)。參賽作品必須使用Data.gov開放的公共數據,可以是一個數據分析的程序,也可以是一個數據可視化的應用,還可以是社交網站和智能手機的插件。

奧萊理出版社的CEO蒂姆·奧萊理又是本次大賽的贊助人和第一評委。

雖然Data.Gov初次上線只開放了47組數據,但3個月內,陽光基金會卻收到了47個新開發的應用程序。這些程序,其中一些相當經典,以至於《紐約時報》、《華盛頓郵報》都對它們作了報道。當然,這些應用程序也成為昆德拉遊說其他部門開放更多數據的超級「武器」。

8月26日,Data.Gov上一次性新增了178項原始數據。但昆德拉並沒有鬆懈,他立足「互動」、不斷完善Data.Gov平台的功能,先後加入了數據的分級評定、高級搜索、用戶交流以及和社交網站互動等等新的功能。例如,用戶可以在網站上直接向聯邦政府建議開放新的數據,而相關部門必須給出回應,若不同意開放,也要列出理由。從2009年5月至12月,Data.Gov共收到社會各界約900項開放數據的申請,聯邦政府最後回復:16%的數據立即開放,26%將在短期內開放,36%將計劃開放,還有22%因為國家安全、個人隱私以及技術方面的限制無法開放。

2009年12月8日,行政管理預算局(OMB)發佈了《開放政府的指令》(Open Government Directive),命令各個聯邦部門必須在45天之內、在Data.gov上至少再開放3項高價值的數據。

2010年2月,米勒又代表陽光基金會給昆德拉發出了一封公開信,對於政府各部門開放的高價值數據做了一次全面的評估,她直接批評11個機構對於開放數據的消極態度,並對數據的格式和質量提出了十分具體的建議。

邁克爾·克萊(Michael Klein)

邁克爾·克萊是一名退而不休的律師。2006年4月,他捐資600多萬美元創立陽光基金會,該基金會的使命是「立足信息技術和互聯網,促進政府的透明和開放」。

艾倫·米勒

陽光基金會的主要創建人之一。她已從事公益事業、草根運動35年,獲得榮譽無數。還曾經創建過另外兩家知名的公益機構:政治問責中心(Center for Responsive Politics)和公共運動(Public Campaign)。

隨著這種從上到下、由外至裡的高壓態勢,數據開放的步伐開始逐步加快。

2010年5月21日,Data.Gov上線發佈的一週年紀念日,聯邦政府開放數據的總數達到了27萬項。

截至2011年12月,Data.Gov上共開放了原始數據3721項、地理數據386429項。

作為Data.Gov這艘旗艦的艦長,昆德拉再次獲得了成功。他的成功,也引起了美國各界甚至全世界的關注。昆德拉先後獲得了一系列的獎項和認可,他被評選為年度CIO,被推選為世界經濟論壇的青年領袖。

2011年,美國信息產業的巨頭、全球500強之一的EMC公司,宣佈建立「數據英雄獎」(Data Hero Award),以獎勵那些「在大數據時代用數據對個人、組織、產業和世界產生了深遠影響的從業人員」。2011年5月9日,EMC的評審委員會決定將首屆「數據英雄獎」頒給昆德拉。輿論上下一致認為實至名歸。

大眾創新:航班延誤之候機經濟學

數據不會被它所激發的思想和創新消耗,相反,它可以為創新提供無窮的燃料。一小片合適的信息,可以促使創新邁進一大步。一組數據,可能會得到數據收集人難以想像的應用,也可能會在另一個看起來毫不相關的領域得到應用,因為這些創新型的應用,數據的能量將層層放大。19

——《利用數據的力量服務科學和社會》,聯邦政府跨部門工作組給總統科學技術委員會的報告,2009年1月

保「數」運動(Save the Data Campaign)

Data.gov的發展並不是一帆風順的。

2011年4月,由於預算赤字,美國聯邦政府被迫大幅削減開支。國會宣佈,原來用於支持Data.gov、USASpending.gov等數據開放網站的3400萬美元年度預算將縮減到200萬美元,這意味著個別網站可能被迫關閉。

以艾倫·米勒為首的陽光基金會立即聯合13家公益組織,發起了「保數運動」。他們聯合一些知名的技術精英和社會活動家,徵集了3000多位公民的簽名,給國會的眾議長以及兩黨的領袖發出了公開信,要求國會在預算博弈中保護Data.gov。這場運動也受到國家公共電台等十多家媒體的報道和關注。

次月,國會表態,該項目的預算將最少增加到800萬美元。

由政府主導、向全社會開放政府擁有的公共數據,這種做法,本身就是一種創新。但更重要的是,Data.Gov不僅僅是一個創新的結果,它的出現,代表著數據在社會的自由流動、知識向大眾的自由流動,這為更多的大眾創新、社會創新提供了一個平台。

截至2011年12月,僅僅在Data.Gov網站上,就彙集了1140個應用程序和軟件工具、85個手機應用插件。其中,有近300個是由民間的程序員、公益組織等社會力量自發開發的。

本書將從中選擇幾個,立足細節,對美國社會如何利用公共數據進行創新做一個分析和介紹。

候機經濟學:航班延誤分析系統

近年來,因航班延誤產生的機場糾紛一度在中國成為一個熱點話題。

美國的航班也有延誤,但卻幾乎沒有「罷乘」、「霸機」、衝擊機場的事件。Data.gov上線以後,美國交通部開放了全美航班起飛、到達、延誤的數據,有程序員立刻利用這些數據開發了一個航班延誤時間的分析系統(Flyontime.us)。該系統向全社會免費開放,任何人都可以通過它查詢分析全國各次航班的延誤率及機場等候時間。

這個系統上線之後,由於其簡單、實用,獲得了全美多個新聞報刊的報道和關注,成為很多人乘機、候機的行動指南。

大眾創新和社會創新

大眾創新,指以普通公民而不是以知識精英為主體的創新。

社會創新(Social Innovation),是指為了解決某個社會問題、滿足某種社會需要、改善某部分人群的生存狀況,民間力量自發產生的一種新的思想、行動和舉措。社會創新也指政府在公共政策、社會治理方面的創新。

社會創新最著名的例子是孟加拉的鄉村銀行(Grameen Bank),它向貧窮的人發放不需要擔保的小額貸款,以幫助窮人改善生活。其創建人Muhammad Yunus獲得了2006年的諾貝爾和平獎。

以波士頓至紐約的航線為例(起飛:Boston,Logan International;到達:New York,Kennedy International),在系統的主頁上,輸入機場名稱,點擊之後,用戶可以看到不同天氣、不同日期、不同時段、不同航空公司、不同航班等各種條件下飛機是否準時以及平均延誤時間的數據明細。

從以上分析可以看到,各種不同組合條件下的數據分析明細基本都有了。這些數據和分析結果,對具體一名消費者和整個社會的經濟活動,會起到什麼作用呢?

一是可以幫助消費者找到表現最佳、或者最符合自己需要的航班。如果沒有這些信息,消費者在選擇航空公司的時候,信息是不完全、不充分的,與航空公司構成一種典型的信息不對稱關係。航班的歷史數據是一種有效的參考和信號,公開這些信息,彌補了消費者的信息不對稱。此外,消費者在對比分析大量歷史數據的基礎上,自己做出判斷,即使結果不盡如人意,但也感覺公平。

Flyontime.us的界面

總體情況分析

按航空公司分析

分析[1]:2010年從波士頓至紐約的航線總共有6735次航班,其中62%准點或提前到達,14%有20分鐘以內的延誤,20%有20分鐘以上的延誤,還有4%的航班最終取消。

分析[2]:按航空公司排序,JetBlue公司的准點率最高,為64.4%;Pinnacle公司的最低,為15.6%。

各種不同天氣情況下的延誤情況分析

分析[3]:天氣良好的情況下,多數航班會提前5分鐘到達;下雪天,平均延誤時間為7分鐘,年度最糟情況為53分鐘,並有7%的航班取消;雷雨天氣,平均延誤2分鐘,最糟情況53分鐘。查詢的結果還向用戶顯示當天當地的天氣情況。

按星期和每天的時間段分析

分析[4]:就一星期而言,星期六的准點率最高,為78%;星期一的准點率最低,為64%。就一天而言,每天早晨5點到6點起飛的航班准點率最高,為83%;晚上9點到10點的准點率最低,為53%。

按節假日分析

分析[5]:感恩節、聖誕節當天的飛機一般都會准點到達,但節日前後的延誤情況是最嚴重的。聖誕節次日平均延誤34分鐘,最糟的情況是80分鐘,還有41%的航班被取消。

按航班分析

分析[6]:全部航班的表現應有盡有。最準點的是航班Comair 6633,最不准點的是航班Delta 1807,平均延誤26分鐘。

二是最大程度降低了旅客等待時間的不確定性。法國有句諺語:讓別人等待的人,他的錯誤會遭到眾人的清算。20憎惡等待,是人之常情,因為等待意味著時間流失、經濟損失,不確定性的等待還往往導致精神焦慮。單次航班的延誤時間似乎是隨機的、無規律的,但是,當數據累積到一定程度時,航班延誤時間的長短就會在統計上呈現出一種秩序和穩定。航班延誤分析系統把這種統計學上「秩序和穩定」傳達給了旅客,幫助他們建立正確的期待,合理安排時間,避免焦慮。

三是有利於推動航空市場的良性競爭。航班延誤分析系統按平均延誤時間給相關航空公司排了「座次」。回到上面的例子,經營波士頓至紐約航線的公司共有5個。就是否准點而言,誰好誰差,幾乎一目瞭然。此外,各次航班的表現也有明細。例如American Eagle航空公司的第4617航班,全年共有182班次,平均延誤7分鐘;相比之下,該公司的4614航班,全年也是182班次,但平均提前8分鐘到達。這些數據,不僅是消費者的行動指南,也是各大航空公司的核心競爭指標。通過這種數據公開,無疑可以促進市場競爭,航班延遲必然逐漸下降到消費者能夠接受的合理範圍之內。

其實,為了緩解航班延誤的問題,美國政府也想過同樣的辦法。早在Data.Gov之前,國家交通安全局就在其網頁上(NSA.gov)提供過一個「航班等待時間計算器」,幫助旅客估計因航班延誤而導致的等待時間。2009年政府開放原始數據之後,民間開發出來的這個免費工具明顯比交通安全局提供的「計算器」功能更強大、界面更友好。很快,該局便關閉了這個「計算器」。

有評論說,開放數據是一石三鳥,不僅服務大眾,刺激經濟,還調動了大眾創新,為政府節省了軟件開發的開支。

Flyontime.us還能夠查詢各個機場安檢通關的時間長短,這個數據,當然是機場服務質量的一個重要指標。但這部分的數據來源,並不是政府發佈的數據,而是乘客自己提交的數據。候機的乘客可以通過推特(Twitter)或者智能手機向該系統提交其在某個機場通過安全檢查的時間。這些數據,通過加總和平均,成為其他用戶的參考。

當然,這又是一個大眾通過網絡的共同協作,改善管理、促進社會福利的例子。

有意思的是,伴隨著Data.Gov的開放,美國的航班延誤率正在呈下降趨勢,由2008年的27%下降到2009年的20.79%,再到2010年的20.23%。當然,原因可能是多方面的,數據開放在其中的作用大小,還有待進一步研究。

聯邦政府的Recalls.Gov手機界面

民間開發的Recalls TM手機界面(帶有商品的照片和圖像)

消費者的福音:商品召回手機查詢系統

如何避免購買到具有安全隱患和質量問題的商品,無疑是所有消費者最關心的話題,這在美國也不例外。特別是嬰幼兒的食品和用品,如果有質量問題,往往成為父母親的夢魘。

Data.gov上線之後,各種因為質量問題而被召回的商品記錄立即成為最受歡迎的數據之一。

聯邦政府共有農業部、食品藥品監督局、消費者委員會等6個部門涉及商品質量和產品召回的管理工作。早期,這6個部門在各自網頁上公開其管轄範圍之內的問題商品的召回記錄。

2009年,為了方便用戶查詢,聯邦政府內務部決定:在整合這些數據的基礎上,開設一個專門的商品召回查詢網站。在這個網站上,消費者可以對任何商品進行查詢,獲得其是否具有召回的記錄,也可以對某一項商品進行跟蹤,獲得電子郵件的提示信息。

這個系統還可以在智能手機上使用。消費者在購物時,通過在隨身攜帶的智能手機上鍵入產品的名稱及型號,可以在購買時直接查看該商品是否具有質量問題和被召回的歷史記錄。如果消費者懷疑該商品存在問題或者是被召回產品的漏網之魚,還可以立即在線舉報。

但聯邦政府開發的這個系統僅僅只能在Android(安卓)的手機上使用。

Data.gov開放數據之後,一款基於蘋果手機的新應用RecallsTM很快就被開發出來,並對全社會免費開放使用。和聯邦政府開發的系統相比,該系統的功能更強大、使用更方便、界面也更絢麗,受到了消費者的莫大歡迎。

可視化的經典:數據混搭器

數據混搭器(Datamasher.org)是陽光基金會舉辦首次公共數據程序員開放大賽(App for America)的金獎作品。它之所以在眾多的參賽作品中拔得頭籌,原因在於,它不僅僅是一個應用程序,還是一個平台,任何一個用戶都可以在它上面選擇需要整合對比的公共數據組,然後產生以地圖為基礎的數據可視化分析。

例如,一名用戶以全美每個州為基準,整合了每百萬人口發生犯罪案件的多少和各州居民擁有武器的比例兩組數據,這兩組數據分別來自聯邦調查局和美國疾病控制中心(CDC)。下圖表明,華盛頓居民的槍支擁有率為1.9%,遠遠低於全國平均水平,但其每百萬人口的罪案數卻為1414宗,居全國第一。又如密西西比州,其槍支擁有率為11.1%,居全國第二,但其每百萬人口的罪案數卻僅為291宗,在全國處於較低的水平。

犯罪案件的多少和居民槍支擁有率的可視化展示

這個可視化應用以直觀的地圖對比,想向讀者證明:一個地區居民擁有槍支的多少,與該地區的治安情況沒有必然的聯繫。

用戶不僅可以在該平台上整合、分析Data.gov上開放的數據,還可以保存自己的設計和對比,並開放給平台的其他用戶,和他人共享,接受他人的評價、意見和反饋。

截至2011年年底,該網站上已經擁有1570個不同的數據可視化應用。從一個地區空氣質量與工廠數量多少的關係,到高中升學率與師資力量的關係,再到肥胖人員的數量與一個地區快餐店多少的關係,林林總總的對比和展示,有些給人直接的啟示,有些發人思考,還有的令人忍俊不禁,但笑過之後又不禁感歎:社會大眾蘊藏的智慧和創造力是無窮無盡的!

註釋

01 英語原文為:「Every motivation that makes a man do something can be classified under『survival』,『social life』and『entertainment』. As a result, progress is defined as reaching a higher category: not doing a thing merely for survival, but for social reasons, and then, even better, just for fun.」—The Hacker Ethic and the Spirit of the Information Age, Prologue, Linus Torvalds, 2001

02 英語原文為:「The open society is one in which men have learned to be to some extent critical of taboos, and to base decisions on the authority of their own intelligence.」—The Open Society and Its Enemies(1945), Vol. 1, Endnotes to the Chapters: Notes to the Introduction

03 英語原文為:「We're entering a new world in which data may be more important than software.」—Tim O'Reilly

04 英語原文為:「Who can afford to do professional work for nothing? What hobbyist can put 3-man years into programming, finding all bugs, documenting his product and distribute for free?」—An Open Letter to Hobbyists, Bill Gate, Feb 3rd, 1976

05 黑客(Hacker),其本意是指熱衷、喜愛計算機編程、對程序設計有精深理解和高級技巧的人。

06 英語原文為:「Given enough eyeballs, all bugs are shallow.」—The Cathedral and the Bazaar, Eric Raymond

07 英文書名為Open Sources: Voices from the Open Source Revolution

08  Fallibility, Wise Men and Politics, New York Times, May 20, 2008

09  8 Principles of Open Government Data, http://www.opengovdata.org

10 英語原文為:「Information maintained by the Federal Government is a national asset.」—Transparency and Open Government, Memorandum for the Heads of Executive Departments and Agencies, White House, 2009

11 英語原文為:「Change will not come if we wait for some other person or some other time. We are the ones we've been waiting for. We are the change that we seek.」—Barack Obama, speech, Feb. 5, 2008

12 該法案全名為:Federal Funding Accountability and Transparency Act of 2006。

13  OMB Offers an Easy Way to Follow the Money, Elizabeth Williamson, The Washington Post. December 13, 2007

14 參見2007年11月奧巴馬訪問谷歌的實況錄像:Candidates@Google: Barack Obama, YouTube。

15 英語原文為:「We are democratizing data, putting the power of information in the hands of the American people.」—Vivek Kundra, January 22, 2010

16 華盛頓特區是美國聯邦政府、國會和最高法院的所在地,其地位相當於中國的北京,在英文中簡稱為「Washington D.C.」,這也是這個項目被簡稱為「DCStat」的原因。

17  President Obama Names Vivek Kundra Chief Information Officer, the White House, March 5, 2009

18 英語原文為:「A primary goal of Data.gov is to improve access to Federal data and expand creative use of those data beyond the walls of government by encouraging innovative ideas(e.g., web applications). Data.gov strives to make government more transparent and is committed to creating an unprecedented level of openness in Government. The openness derived from Data.gov will strengthen our Nation's democracy and promote efficiency and effectiveness in Government.」參見Data.Gov網頁。

19 英語原文為:「Data are not consumed by the ideas and innovations they spark, but are an endless fuel for creativity. A small bit of information, well found, can drive a giant leap of creativity. The power of a data set can be amplified by ingenuity through applications unimagined by the authors and distant from the original field.」—Harnessing the Power of Digital Data for Science and Society, Report of the Interagency Working Group on Digital Data to the Committee on Science of the National Science and Technology Council, Jan 2009

20 法語原文為:On compte les defautsde qui se fait attendre.