摘要:依托大數(shù)據(jù)、互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展，數(shù)字經(jīng)濟(jì)已經(jīng)成為我國(guó)高質(zhì)量發(fā)展的新引擎，對(duì)經(jīng)濟(jì)發(fā)展、社會(huì)治理、人民生活等方方面面都產(chǎn)生了重要影響。但是，對(duì)大數(shù)據(jù)這一數(shù)字經(jīng)濟(jì)的關(guān)鍵要素，目前在治理方面仍存在不少挑戰(zhàn)。為此，要著力防范“大數(shù)據(jù)自大”陷阱，加強(qiáng)大數(shù)據(jù)治理，為充分發(fā)揮大數(shù)據(jù)在國(guó)家治理現(xiàn)代化中的作用打下堅(jiān)實(shí)基礎(chǔ)。

關(guān)鍵詞:大數(shù)據(jù)治理大數(shù)據(jù)自大政策建議

【中圖分類號(hào)】D63 【文獻(xiàn)標(biāo)識(shí)碼】A

由于大數(shù)據(jù)具備“海量、實(shí)時(shí)、多類型”等特征，依托大數(shù)據(jù)、互聯(lián)網(wǎng)和信息技術(shù)的發(fā)展，我國(guó)數(shù)字經(jīng)濟(jì)蓬勃發(fā)展，已經(jīng)成為高質(zhì)量發(fā)展的新引擎。但是，對(duì)大數(shù)據(jù)這一數(shù)字經(jīng)濟(jì)的關(guān)鍵要素而言，目前在治理方面仍存在不少挑戰(zhàn)，尤其是存在過(guò)于強(qiáng)調(diào)大數(shù)據(jù)發(fā)展優(yōu)勢(shì)而忽略其中可能存在問(wèn)題的傾向。為此，本文旨在著重探討大數(shù)據(jù)治理中需要防范的“大數(shù)據(jù)自大”陷阱。

“大數(shù)據(jù)”和“傳統(tǒng)數(shù)據(jù)”收集過(guò)程的差異

大數(shù)據(jù)在收集和分析方式上與傳統(tǒng)數(shù)據(jù)存在較大差異。傳統(tǒng)統(tǒng)計(jì)數(shù)據(jù)的收集主體是國(guó)家統(tǒng)計(jì)部門（“統(tǒng)計(jì)”在英文中與“國(guó)家”同一詞根）和特定研究機(jī)構(gòu)。無(wú)論是人口普查還是抽樣調(diào)查，在收集數(shù)據(jù)前往往需要經(jīng)過(guò)確定收集數(shù)據(jù)的目標(biāo)、根據(jù)該目標(biāo)設(shè)計(jì)問(wèn)卷或者確定收集方法、組織數(shù)據(jù)采集團(tuán)隊(duì)、對(duì)數(shù)據(jù)收集做好質(zhì)量控制等步驟。對(duì)于抽樣調(diào)查，還需要詳細(xì)的確定抽樣框的步驟。尤其重要的是，傳統(tǒng)數(shù)據(jù)的統(tǒng)計(jì)必須遵守相關(guān)法律法規(guī)，如《中華人民共和國(guó)統(tǒng)計(jì)法》《中華人民共和國(guó)統(tǒng)計(jì)法實(shí)施條例》等。因此，傳統(tǒng)數(shù)據(jù)的收集主體相對(duì)清晰，數(shù)據(jù)收集目標(biāo)相對(duì)明確，存在規(guī)范的收集流程；一旦統(tǒng)計(jì)數(shù)據(jù)出現(xiàn)質(zhì)量問(wèn)題，也有明確責(zé)任人。

與傳統(tǒng)數(shù)據(jù)的收集相比，大數(shù)據(jù)往往不是為了特定目標(biāo)收集，而是企業(yè)運(yùn)營(yíng)過(guò)程中產(chǎn)生的副產(chǎn)品。例如，谷歌作為搜索引擎，最初只是為用戶提供便捷的搜索工具，但隨著用戶搜索量的增加，用戶搜索的信息本身沉淀為搜索大數(shù)據(jù)。又如淘寶最初只是讓消費(fèi)者和廠商可以在線上達(dá)成交易的平臺(tái)，但雙方的交易形成了交易大數(shù)據(jù)。簡(jiǎn)而言之，大數(shù)據(jù)的收集不再是某一主體為了特定目標(biāo)而主動(dòng)展開的統(tǒng)計(jì)項(xiàng)目，收集過(guò)程往往由數(shù)據(jù)采集平臺(tái)和機(jī)構(gòu)自行決定，因此對(duì)外界來(lái)說(shuō)是“黑箱”。由于目前我國(guó)還沒有相應(yīng)法律法規(guī)來(lái)規(guī)范大數(shù)據(jù)收集過(guò)程中的責(zé)、權(quán)、利問(wèn)題，大數(shù)據(jù)的質(zhì)量以及基于大數(shù)據(jù)的分析如果出現(xiàn)問(wèn)題也存在難以追責(zé)的現(xiàn)象。

“大數(shù)據(jù)自大”的提出

“大數(shù)據(jù)自大（Big Data Hubris）”問(wèn)題最早由Lazer等學(xué)者在2014年發(fā)文討論谷歌公司預(yù)測(cè)美國(guó)流感發(fā)病率項(xiàng)目時(shí)提出。2008年11月，谷歌公司啟動(dòng)了GFT（谷歌流感趨勢(shì)）項(xiàng)目以預(yù)測(cè)美國(guó)疾控中心報(bào)告的流感發(fā)病率。2009年，GFT團(tuán)隊(duì)在《自然》發(fā)文稱，只需分析數(shù)十億搜索中45個(gè)與流感相關(guān)的關(guān)鍵詞，GFT就能比美國(guó)疾控中心提前兩周預(yù)報(bào)2007—2008季流感的發(fā)病率。2014年, Lazer等學(xué)者在《科學(xué)》發(fā)文指出，2009年GFT沒有能預(yù)測(cè)到非季節(jié)性流感A-H1N1；從2011年8月開始的108周里，GFT有100周高估了美國(guó)疾控中心報(bào)告的流感發(fā)病率，高估程度達(dá)1.5倍—2倍多。

Lazer等學(xué)者認(rèn)為，“大數(shù)據(jù)自大”是這一預(yù)測(cè)錯(cuò)誤的主要原因之一。這里，它是指一家機(jī)構(gòu)認(rèn)為自己擁有的“海量數(shù)據(jù)”就是“全量數(shù)據(jù)”，因此在分析定位上認(rèn)為大數(shù)據(jù)比科學(xué)抽樣基礎(chǔ)上形成的傳統(tǒng)數(shù)據(jù)更優(yōu)越。雖然近年來(lái)大數(shù)據(jù)與各類傳統(tǒng)數(shù)據(jù)相結(jié)合的分析受到了一定程度的重視，但是在實(shí)踐中卻仍然存在“大數(shù)據(jù)自大”現(xiàn)象。

“大數(shù)據(jù)自大”的現(xiàn)實(shí)表現(xiàn)

忽略大數(shù)據(jù)可能存在的結(jié)構(gòu)變化

由于大數(shù)據(jù)相關(guān)技術(shù)在我國(guó)運(yùn)用的時(shí)間還比較短，在對(duì)經(jīng)濟(jì)和金融相關(guān)的預(yù)測(cè)中，尚不存在可以跨越較長(zhǎng)經(jīng)濟(jì)周期的大數(shù)據(jù)。而大數(shù)據(jù)分析所依據(jù)的機(jī)器學(xué)習(xí)或者深度學(xué)習(xí)模型，都假定了訓(xùn)練數(shù)據(jù)的生成機(jī)制和真實(shí)數(shù)據(jù)的生成機(jī)制是相似的，即不存在結(jié)構(gòu)性變化。這一假定在較短時(shí)間內(nèi)可能成立，但是如果經(jīng)濟(jì)出現(xiàn)結(jié)構(gòu)性變化，就會(huì)產(chǎn)生過(guò)去運(yùn)行良好的模型忽然預(yù)測(cè)不準(zhǔn)的現(xiàn)象。例如，在經(jīng)濟(jì)繁榮時(shí)期訓(xùn)練出的判斷個(gè)人是否會(huì)逾期或者形成不良貸款的風(fēng)控模型，在經(jīng)濟(jì)下行時(shí)期就可能低估實(shí)際不良率的發(fā)生，導(dǎo)致對(duì)風(fēng)險(xiǎn)的預(yù)備不足。

忽略大數(shù)據(jù)可能不具備代表性

第一，不同平臺(tái)或者機(jī)構(gòu)有其特定的消費(fèi)人群。因此分析結(jié)論可能僅適用于該平臺(tái)或機(jī)構(gòu)、未必可以代表全國(guó)或某一地區(qū)的狀況。然而一個(gè)常見現(xiàn)象是，網(wǎng)絡(luò)新聞平臺(tái)采用該平臺(tái)的瀏覽大數(shù)據(jù)來(lái)分析各省人群的閱讀習(xí)慣差異，餐飲行業(yè)平臺(tái)采用在這個(gè)平臺(tái)上產(chǎn)生的大數(shù)據(jù)來(lái)分析不同城市的夜間經(jīng)濟(jì)，報(bào)告結(jié)果往往直接闡述為“XX省的讀者更偏好娛樂(lè)類新聞”“XX市夜間經(jīng)濟(jì)特征”等。當(dāng)相關(guān)企業(yè)將這類報(bào)告報(bào)送有關(guān)部門時(shí)，解讀這類報(bào)告中的趨勢(shì)和特征就需要注意，這類報(bào)告的分析包含了兩部分因素：一是全國(guó)或者某一地區(qū)人民閱讀或者餐飲的真實(shí)特征和趨勢(shì)；二是該平臺(tái)自身需求所帶來(lái)的結(jié)構(gòu)性變化。如果忽略了第二種因素，就可能會(huì)導(dǎo)致對(duì)一些行業(yè)發(fā)展?fàn)顩r產(chǎn)生誤判。

第二，在大數(shù)據(jù)供給層面存在算法調(diào)整問(wèn)題。以谷歌公司為例，其商業(yè)模式的主要目標(biāo)是更快速地為使用者提供準(zhǔn)確信息。為了實(shí)現(xiàn)這一目標(biāo)，數(shù)據(jù)科學(xué)家與工程師不斷更新谷歌搜索的算法，讓使用者可以通過(guò)后續(xù)谷歌推薦的相關(guān)詞快捷地獲得有用信息。這一模式在商業(yè)上非常必要，但在數(shù)據(jù)生成機(jī)制方面卻導(dǎo)致不同時(shí)期的數(shù)據(jù)之間可能不可比。如果數(shù)據(jù)分析團(tuán)隊(duì)和算法演化團(tuán)隊(duì)沒有充分溝通，數(shù)據(jù)分析團(tuán)隊(duì)不清楚知曉算法調(diào)整對(duì)數(shù)據(jù)生成機(jī)制的影響，就會(huì)誤將數(shù)據(jù)變動(dòng)解讀為市場(chǎng)真實(shí)變動(dòng)而帶來(lái)誤判。

第三，數(shù)據(jù)生成動(dòng)機(jī)可能會(huì)隨時(shí)間推移而發(fā)生變化。前文已述，大數(shù)據(jù)不再是由政府特定部門或者特定機(jī)構(gòu)主持收集，而是經(jīng)濟(jì)社會(huì)主體運(yùn)營(yíng)中產(chǎn)生的副產(chǎn)品，因此大數(shù)據(jù)的采集就和該主體自身的利益訴求密切相關(guān)。以社交媒體大數(shù)據(jù)為例，對(duì)這類數(shù)據(jù)的分析常常建立在一個(gè)假定之上，即人們?cè)谏缃幻襟w分享的信息都是真實(shí)的、自發(fā)的、不會(huì)被自己發(fā)言的平臺(tái)所操縱。如果說(shuō)過(guò)去社交媒體企業(yè)記錄保存客戶信息的動(dòng)機(jī)僅僅是本公司發(fā)展業(yè)務(wù)需要，算法演化也單純是為了更好地服務(wù)消費(fèi)者，那么隨著大數(shù)據(jù)時(shí)代的推進(jìn)，“數(shù)據(jù)為王”的特征就會(huì)越來(lái)越明顯，社交媒體會(huì)看到除了可以給使用者植入廣告以增加收入之外，還可以操縱數(shù)據(jù)的生成與報(bào)告以增加自身的影響力。

技術(shù)唯上，忽略大數(shù)據(jù)分析的現(xiàn)實(shí)環(huán)境

大數(shù)據(jù)為我國(guó)發(fā)展新業(yè)態(tài)提供了嶄新機(jī)遇，但也存在一味強(qiáng)調(diào)大數(shù)據(jù)的技術(shù)優(yōu)勢(shì)，而忽略大數(shù)據(jù)技術(shù)和各地區(qū)經(jīng)濟(jì)社會(huì)發(fā)展實(shí)際狀況相結(jié)合時(shí)可能產(chǎn)生問(wèn)題的現(xiàn)象。例如，金融科技發(fā)展過(guò)程中，大數(shù)據(jù)征信獲得了長(zhǎng)足進(jìn)展?；诖髷?shù)據(jù)技術(shù)，車抵貸有了新的執(zhí)行方式。相較于過(guò)去抵押車之后車就要放到固定地點(diǎn)不能移動(dòng)的安排，現(xiàn)在由于車輛都安裝了GPS，貸款平臺(tái)可以實(shí)時(shí)監(jiān)控車輛去向，因此抵押人辦完抵押手續(xù)之后仍然可以將車開走，一旦無(wú)法還款，平臺(tái)公司上門拖車即可。但是，在2018年以來(lái)開展的掃黑除惡專項(xiàng)整治活動(dòng)中，借款人不還款、而出借方平臺(tái)因?yàn)閾?dān)心被當(dāng)作惡意催收，也不能按照GPS上門收車的現(xiàn)象開始出現(xiàn)。又如，大數(shù)據(jù)分析技術(shù)的發(fā)展讓網(wǎng)約車成為人們?nèi)粘３鲂械男逻x擇。但2019年12月Uber的首份安全報(bào)告顯示，2018年共發(fā)生超過(guò)3000起性侵案件，而紐約警察局記錄的數(shù)據(jù)顯示，2018年交通系統(tǒng)發(fā)生的這類案件為533起。上述兩例說(shuō)明，如果沒有尊重金融規(guī)律（風(fēng)險(xiǎn)較高的人即便可以抵押車也不見得是好的借款人）、沒有相應(yīng)的司法保障而單純依靠大數(shù)據(jù)分析的技術(shù)力量，那么在開發(fā)新業(yè)態(tài)的同時(shí)也可能帶來(lái)新風(fēng)險(xiǎn)。

防范“大數(shù)據(jù)自大”的政策建議

第一，加快訂立大數(shù)據(jù)采集和分析方面的法律法規(guī)。雖然有《網(wǎng)絡(luò)安全法》、《統(tǒng)計(jì)法》等法律法規(guī)，但目前我國(guó)在專門針對(duì)大數(shù)據(jù)采集、使用、分享等方面的法律法規(guī)還十分欠缺。例如，一些APP存在在使用者不知情的情況下，采集和使用與該APP無(wú)關(guān)的個(gè)人信息的做法，而這些行為目前并沒有明確的法律層面的懲戒措施。而歐盟的《通用數(shù)據(jù)保護(hù)條例（General Data Protection Regulations）》、荷蘭的《個(gè)人數(shù)據(jù)保護(hù)法》（Personal Data Protection Act，“DPA”）都指出，在沒有法律依據(jù)的情況下處理個(gè)人數(shù)據(jù)是不被允許的。

第二，提高大數(shù)據(jù)使用的透明度，加強(qiáng)對(duì)大數(shù)據(jù)質(zhì)量的評(píng)估。由于大數(shù)據(jù)體量大、分析難度高等問(wèn)題，不僅大數(shù)據(jù)的收集過(guò)程可能是“黑箱”，大數(shù)據(jù)分析也可能存在過(guò)程不透明的現(xiàn)象。在GFT案例中，Lazer等人指出，谷歌公司從未明確用于搜索的45個(gè)關(guān)鍵詞是哪些；雖然谷歌工程師在2013年調(diào)整了數(shù)據(jù)算法，但是谷歌并沒有公開相應(yīng)數(shù)據(jù)，也沒有解釋這類數(shù)據(jù)是如何搜集的。同時(shí)，與透明度相關(guān)的是大數(shù)據(jù)分析結(jié)果的可復(fù)制性問(wèn)題。由于谷歌以外的研究人員難以獲得GFT使用的數(shù)據(jù)，因此就難以復(fù)制、評(píng)估采用該數(shù)據(jù)分析結(jié)果的可靠性。這種數(shù)據(jù)生成和分析的“黑箱”特征，容易成為企業(yè)或者機(jī)構(gòu)操縱數(shù)據(jù)生成過(guò)程和研究報(bào)告結(jié)果的溫床。唯有通過(guò)推動(dòng)大數(shù)據(jù)分析的透明化，才能在大數(shù)據(jù)產(chǎn)業(yè)發(fā)展之初，建立健康的數(shù)據(jù)文化。

第三，在保護(hù)隱私和數(shù)據(jù)安全的基礎(chǔ)上，加大傳統(tǒng)數(shù)據(jù)和大數(shù)據(jù)的開放共享力度。大數(shù)據(jù)分析中，單個(gè)企業(yè)具有顆粒度較高但是代表性不足的數(shù)據(jù) “信息孤島”問(wèn)題，需要通過(guò)不同行業(yè)、不同類型大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)之間加強(qiáng)開放和共享來(lái)解決。目前，一些大數(shù)據(jù)企業(yè)已經(jīng)開始著手推動(dòng)數(shù)據(jù)開放平臺(tái)方面的工作，這是該方向可喜的變化。同時(shí)要看到，在傳統(tǒng)數(shù)據(jù)的收集和開放運(yùn)用方面，我國(guó)還有很大提升空間。只有在對(duì)涉及我國(guó)基本國(guó)情的傳統(tǒng)數(shù)據(jù)進(jìn)行充分學(xué)習(xí)研究之后，我國(guó)學(xué)界和業(yè)界才能對(duì)經(jīng)濟(jì)政治社會(huì)文化等領(lǐng)域的基本狀況有較清晰的把握。而這類的把握，是評(píng)估大數(shù)據(jù)質(zhì)量、大數(shù)據(jù)可研究問(wèn)題的關(guān)鍵，對(duì)推進(jìn)大數(shù)據(jù)產(chǎn)業(yè)健康發(fā)展有舉足輕重的作用。

結(jié)語(yǔ)

我國(guó)經(jīng)濟(jì)已由高速增長(zhǎng)階段轉(zhuǎn)向高質(zhì)量發(fā)展階段，大數(shù)據(jù)已經(jīng)成為數(shù)字經(jīng)濟(jì)發(fā)展的關(guān)鍵要素。如果忽略數(shù)據(jù)生成機(jī)構(gòu)可能存在的行為動(dòng)機(jī)、大數(shù)據(jù)相關(guān)技術(shù)使用的現(xiàn)實(shí)國(guó)情、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的互相配合和交叉驗(yàn)證，那么大數(shù)據(jù)分析就有可能落入存在嚴(yán)重偏差的陷阱。因此在政策導(dǎo)向上，需要盡快推動(dòng)對(duì)大數(shù)據(jù)采集和使用的法律法規(guī)建設(shè)，同時(shí)推動(dòng)大數(shù)據(jù)開放共享、大數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)的研究與合作，使大數(shù)據(jù)與傳統(tǒng)數(shù)據(jù)互為補(bǔ)充、相得益彰，共同助力我國(guó)經(jīng)濟(jì)的高質(zhì)量發(fā)展。

【本文作者為北京大學(xué)國(guó)家發(fā)展研究院教授】

參考文獻(xiàn)

[1]胥愛歡: 《互聯(lián)網(wǎng)金融創(chuàng)新挑戰(zhàn)：大數(shù)據(jù)、跨界經(jīng)營(yíng)與權(quán)利異化》，《西南金融》，2016年第6期。

責(zé)編：司文君 / 周素麗

聲明：本文為《國(guó)家治理》周刊原創(chuàng)內(nèi)容，任何單位或個(gè)人轉(zhuǎn)載請(qǐng)回復(fù)國(guó)家治理周刊微信號(hào)獲得授權(quán)，轉(zhuǎn)載時(shí)務(wù)必標(biāo)明來(lái)源及作者，否則追究法律責(zé)任。

j8又粗又硬又大又爽又长国产,色久网站,国产免费自拍视频,无码国产一区流畅有码av,Comwww在线播放,美女网站黄页免费,国产免费观看a∧wwwww.

加強(qiáng)大數(shù)據(jù)治理，防范“大數(shù)據(jù)自大”