j8又粗又硬又大又爽又长国产,色久网站,国产免费自拍视频,无码国产一区流畅有码av,Comwww在线播放,美女网站黄页免费,国产免费观看a∧wwwww.

網(wǎng)站首頁 | 網(wǎng)站地圖

大國新村
首頁 > 原創(chuàng)精品 > 成果首發(fā) > 正文

人工智能與計(jì)算傳播學(xué)

【摘要】人工智能浪潮已經(jīng)席卷全球,不僅改變了人類的生活方式和傳播行為,也改變了人類觀察和認(rèn)識世界的方式。人工智能與大數(shù)據(jù)驅(qū)動的計(jì)算范式延伸至社會科學(xué)領(lǐng)域,受傳統(tǒng)傳播學(xué)定量研究范式、數(shù)據(jù)科學(xué)和網(wǎng)絡(luò)科學(xué)的影響和啟發(fā),計(jì)算傳播學(xué)方興未艾,已經(jīng)成為計(jì)算社會科學(xué)的重要分支學(xué)科之一。從數(shù)據(jù)挖掘到機(jī)器學(xué)習(xí),再到深度學(xué)習(xí),人工智能算法和技術(shù)極大提高了計(jì)算方法處理大數(shù)據(jù)的精度和效率。目前,與無監(jiān)督和監(jiān)督學(xué)習(xí)方法相結(jié)合,自動化內(nèi)容分析、情感分析和社會網(wǎng)絡(luò)分析等方法為計(jì)算傳播學(xué)研究提供了數(shù)據(jù)處理、整合和分析的研究策略和經(jīng)驗(yàn)。在未來,通過開發(fā)和建立可擴(kuò)展的自動化內(nèi)容分析框架和系統(tǒng),引入更豐富的深度學(xué)習(xí)策略,以及推動跨學(xué)科研究的方法創(chuàng)新等,將有助于人工智能與計(jì)算傳播學(xué)在更廣泛的交叉領(lǐng)域?qū)崿F(xiàn)深度融合。

【關(guān)鍵詞】計(jì)算傳播學(xué) 人工智能 機(jī)器學(xué)習(xí) 深度學(xué)習(xí)

【中圖分類號】G20 【文獻(xiàn)標(biāo)識碼】A

【DOI】10.16619/j.cnki.rmltxsqy.2019.20.003

 

當(dāng)前,越來越多的社會科學(xué)研究者在大數(shù)據(jù)的驅(qū)動下,使用統(tǒng)計(jì)學(xué)、數(shù)學(xué)模型和機(jī)器學(xué)習(xí)等方法,探索社會科學(xué)知識發(fā)現(xiàn)和數(shù)據(jù)挖掘的新方向,開啟了規(guī)模更廣、參與度更深的社會科學(xué)新紀(jì)元。2009年,拉澤爾等[1]提出了“計(jì)算社會科學(xué)”(Computational Social Science)的概念,他們認(rèn)為以“計(jì)算”作為研究的基礎(chǔ)手段的社會科學(xué)業(yè)已形成,展現(xiàn)出人類在前所未有的廣度、深度和規(guī)模上收集和分析數(shù)據(jù)的能力。人文社會科學(xué)的學(xué)者開始關(guān)注大數(shù)據(jù)、人工智能等信息技術(shù)對社會經(jīng)濟(jì)發(fā)展以及科學(xué)研究等方面帶來的影響和價(jià)值。尤其是社會科學(xué)研究者效法自然科學(xué),以計(jì)算機(jī)作為研究社會復(fù)雜性的基本工具,創(chuàng)新地運(yùn)用多種計(jì)算方法(computational methods)研究社會科學(xué)問題,并影響了諸如社會學(xué)、語言學(xué)、傳播學(xué)等學(xué)科研究范式的轉(zhuǎn)型。在傳播學(xué)領(lǐng)域,這一轉(zhuǎn)型中的研究范式被稱為:計(jì)算傳播學(xué)(Computational Communication Research)。

人工智能與大數(shù)據(jù)之間的關(guān)系非常緊密,人工智能的深度學(xué)習(xí)進(jìn)化依賴于大數(shù)據(jù)平臺和技術(shù)基礎(chǔ),同時(shí)后者的改進(jìn)也需要人工智能算法的支撐。計(jì)算傳播學(xué)何以可能?可以說,它的出現(xiàn)正是得益于大數(shù)據(jù)和人工智能的協(xié)同發(fā)展,主要體現(xiàn)在三個方面的因素:第一,海量的數(shù)字化數(shù)據(jù),從社交媒體信息、其他“數(shù)字痕跡”(digital trace)到在線檔案、數(shù)字化的報(bào)紙以及其他歷史檔案;第二,用于分析數(shù)據(jù)的工具的進(jìn)步,包括網(wǎng)絡(luò)分析、自動化文本分析、主題模型、詞嵌入等統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)方法;第三,強(qiáng)大而廉價(jià)的處理能力以及計(jì)算工具的易用性,包括科研目的和商業(yè)用途的云計(jì)算、共享和編程平臺的涌現(xiàn)和發(fā)展。[2]可見,互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)為社會科學(xué)提供了可資研究的大規(guī)模數(shù)據(jù),其中以半結(jié)構(gòu)或非結(jié)構(gòu)數(shù)據(jù)為主(包括文本、語音、視覺圖像等),而人工智能成為了這類數(shù)據(jù)處理的關(guān)鍵性技術(shù),[3]對計(jì)算傳播學(xué)的發(fā)展起到至關(guān)重要的支撐和催化作用。

本文將從計(jì)算傳播學(xué)的概念、起源出發(fā),探尋計(jì)算傳播學(xué)與傳播研究定量傳統(tǒng)、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)的學(xué)科淵源;并在簡述人工智能熱潮下機(jī)器學(xué)習(xí)、深度學(xué)習(xí)概況的基礎(chǔ)上,對人工智能在計(jì)算傳播學(xué)研究方法(包括內(nèi)容分析、情感分析和社會網(wǎng)絡(luò)分析)中的應(yīng)用現(xiàn)狀和前景進(jìn)行綜述和探討;最后,討論和展望推動人工智能與計(jì)算傳播學(xué)深度融合的發(fā)展方向和未來趨勢。

計(jì)算傳播學(xué)的概念及淵源

計(jì)算傳播學(xué)的概念。作為計(jì)算社會科學(xué)的重要分支,計(jì)算傳播學(xué)藉由海量的互聯(lián)網(wǎng)數(shù)據(jù)和先進(jìn)的計(jì)算技術(shù)對人類傳播現(xiàn)象和行為進(jìn)行跨學(xué)科研究。所謂“計(jì)算傳播學(xué)”,可以被理解為是一種正在興起的數(shù)據(jù)驅(qū)動的研究取向,是基于人類傳播行為的數(shù)字足跡,采用文本挖掘、情感分析、社會網(wǎng)絡(luò)分析等帶有顯著計(jì)算特征的數(shù)據(jù)分析方法進(jìn)行研究,來探究人類傳播行為的表現(xiàn)模式和內(nèi)在邏輯;數(shù)據(jù)集、可計(jì)算、可建模成為計(jì)算傳播學(xué)有別于傳統(tǒng)傳播學(xué)的顯著特征。因此,計(jì)算傳播學(xué)帶有濃厚的方法和工具的屬性特征,所以計(jì)算傳播學(xué)也被研究者(在之前的一段時(shí)間中,乃至于有可能在以后的一段時(shí)間中)普遍認(rèn)為是研究方法的轉(zhuǎn)型,而非傳播學(xué)范式的轉(zhuǎn)型。然而隨著整個人類社會都在邁向數(shù)字化,(新生代)人類的傳播行為大多依賴于數(shù)字化平臺來實(shí)現(xiàn),即便是在現(xiàn)實(shí)空間的傳播與交流行為也因?yàn)楦鞣N技術(shù)的突破可以被數(shù)字化記錄和存儲,于是,傳播學(xué)所探究的人類傳播行為自身顯現(xiàn)出顯著的數(shù)字式傾向。傳播學(xué)關(guān)注的對象在數(shù)字化,其研究范式不可避免也需要有數(shù)字化的轉(zhuǎn)型。因此,我們認(rèn)為計(jì)算傳播學(xué)并不僅僅是一系列研究方法和工具的集合,它更有可能是整個傳播學(xué)在數(shù)字化時(shí)代的學(xué)科范式的轉(zhuǎn)型。

借鑒沙哈等人[4]的標(biāo)準(zhǔn),計(jì)算傳播學(xué)的研究范式通常包括:(1)大而復(fù)雜的數(shù)據(jù)集;(2)由數(shù)字痕跡和其他“自然發(fā)生”的數(shù)據(jù)組成;(3)需要算法對此進(jìn)行分析;(4)允許運(yùn)用和檢驗(yàn)傳播理論來研究人類傳播行為。[5]換言之,一種方法是在計(jì)算機(jī)上執(zhí)行的,并不意味著它就是一種“計(jì)算方法”,因?yàn)閭鞑W(xué)者在過去半個多世紀(jì)里一直使用計(jì)算機(jī)來輔助他們進(jìn)行研究;另一方面,計(jì)算范式也不是由日益復(fù)雜的算法造就的“神話”,更不是社會科學(xué)和計(jì)算機(jī)科學(xué)的機(jī)械式拼湊,[6]而是跨學(xué)科乃至“超學(xué)科”[7]的知識體系和方法論的深度融合。

計(jì)算傳播學(xué)的學(xué)科淵源。從研究范式來看,計(jì)算傳播學(xué)起源至少受到三個學(xué)科發(fā)展的重要影響,即(實(shí)證)傳播學(xué)、數(shù)據(jù)科學(xué)以及網(wǎng)絡(luò)科學(xué)。傳播領(lǐng)域根源于社會科學(xué)和人文學(xué)科,傳統(tǒng)實(shí)證范式的傳播學(xué)研究主要以心理學(xué)實(shí)驗(yàn)、社會學(xué)調(diào)查、統(tǒng)計(jì)學(xué)、計(jì)量經(jīng)濟(jì)學(xué)、社會網(wǎng)絡(luò)分析等方法為主。相比于其他社會科學(xué),傳播學(xué)對方法的重視程度歷來不足,缺乏研究傳播過程的方法和采用其他學(xué)科領(lǐng)域的方法,[8]長期以來一直被認(rèn)為是一個理解傳播學(xué)的特殊挑戰(zhàn)。傳播作為一門學(xué)科正處于數(shù)據(jù)革命的潮頭之上,因?yàn)榇蠖鄶?shù)公開的在線行為留下的數(shù)字足跡都源自某種形式的傳播,所以在線用戶行為的觀察性研究成為計(jì)算傳播學(xué)的重要領(lǐng)域。[9]

從歷史淵源來說,用戶行為挖掘是傳播學(xué)電視收視率數(shù)據(jù)挖掘與分析在網(wǎng)絡(luò)時(shí)代的延續(xù)和發(fā)展,[10]用戶分析的基本概念和測量指標(biāo)由收視率調(diào)查發(fā)展而來。[11]雖然收視率調(diào)查是針對有限樣本的隨機(jī)抽樣研究,但回溯至20世紀(jì)30年代,通過日記卡或測量儀等多種數(shù)據(jù)采集手段獲得的數(shù)據(jù)規(guī)模已然十分龐大,可以說傳播學(xué)是較早使用大數(shù)據(jù)開展調(diào)查分析的社會科學(xué)之一。進(jìn)入大數(shù)據(jù)時(shí)代,人們通過互聯(lián)網(wǎng)及其相關(guān)應(yīng)用的“中介”(mediated)傳播行為成為社會科學(xué)研究的重心,在線的人際和社會交流直接產(chǎn)生的海量數(shù)字記錄正在對許多傳統(tǒng)研究方法帶來巨大的挑戰(zhàn)。

受數(shù)據(jù)科學(xué)的影響,傳播學(xué)正在經(jīng)歷一個從定性研究到定量研究,再到計(jì)算研究,從簡單分析到復(fù)雜處理,從屬性數(shù)據(jù)到關(guān)系數(shù)據(jù)的研究范式和方法論思考的過程。[12]傳播研究的定量范式主要基于統(tǒng)計(jì)學(xué),而真正意義上的現(xiàn)代統(tǒng)計(jì)學(xué)是從處理小數(shù)據(jù)、不完美的實(shí)驗(yàn)等這類現(xiàn)實(shí)問題發(fā)展起來的。[13]格雷(Jim Gray)早在20世紀(jì)90年代中期就提出了科學(xué)研究的“第四范式”(the fourth paradigm),即數(shù)據(jù)密集型科學(xué),預(yù)示著科學(xué)研究由傳統(tǒng)的假設(shè)驅(qū)動向數(shù)據(jù)驅(qū)動的探索性方法的轉(zhuǎn)變,其中一個重要的特征就是“從用少量數(shù)據(jù)集的輔助研究,轉(zhuǎn)向?qū)?shù)量不斷擴(kuò)大的各種高信息含量數(shù)據(jù)進(jìn)行研究”,這將促使“大部分人文社會科學(xué)走向具有自然科學(xué)的特征”。[14]

目前,傳統(tǒng)分析工具對大數(shù)據(jù)很難發(fā)揮作用,也就是說傳統(tǒng)的數(shù)據(jù)庫和統(tǒng)計(jì)分析技術(shù)很難在有限時(shí)間范圍內(nèi)完成數(shù)據(jù)存儲、預(yù)處理、計(jì)算和管理等一系列過程。為了有效地處理這類數(shù)據(jù),數(shù)據(jù)科學(xué)(Data Science)的新范式應(yīng)運(yùn)而生,從而構(gòu)成了計(jì)算傳播研究的數(shù)據(jù)和方法基礎(chǔ)。不僅是數(shù)量級上的差異,計(jì)算傳播學(xué)所處理的大數(shù)據(jù)與傳統(tǒng)小數(shù)據(jù)相比也已發(fā)生了質(zhì)的變化,前者以半/非結(jié)構(gòu)型數(shù)據(jù)為主,處理難度和挑戰(zhàn)遠(yuǎn)超于后者(結(jié)構(gòu)型數(shù)據(jù)為主)。由于數(shù)據(jù)的規(guī)模之大、結(jié)構(gòu)之復(fù)雜,計(jì)算傳播研究需要借助人工智能和并行處理等現(xiàn)代計(jì)算技術(shù)才能實(shí)現(xiàn)。

計(jì)算傳播學(xué)的另一個重要學(xué)科來源是網(wǎng)絡(luò)科學(xué)(Network Science)——“專門研究復(fù)雜網(wǎng)絡(luò)系統(tǒng)的定性和定量規(guī)律的一門嶄新的交叉科學(xué)”。[15]網(wǎng)絡(luò)科學(xué)的出現(xiàn)開啟了21世紀(jì)社會科學(xué)的新的研究方向,基于互聯(lián)網(wǎng)傳播產(chǎn)生的數(shù)據(jù)和互動性將會變革我們對于人類集體行為的認(rèn)識,[16]利用社會計(jì)算的方法深入分析每一個個體的關(guān)系和連接,有可能預(yù)知社會發(fā)展的趨勢。[17]網(wǎng)絡(luò)科學(xué)以復(fù)雜網(wǎng)絡(luò)為研究對象,關(guān)注不同拓?fù)浣Y(jié)構(gòu)特征、功能及其相互關(guān)系,進(jìn)而為在線傳播網(wǎng)絡(luò)中的各種動力學(xué)行為和信息流過程的計(jì)算、預(yù)測和控制提供了原理和方法基礎(chǔ)。

毫無疑問,復(fù)雜性和非線性是物質(zhì)、生命和人類社會進(jìn)化中的顯著特征。為此,傳統(tǒng)的定量研究采用非線性問題線性化的方法,在對社會結(jié)構(gòu)進(jìn)行劃分的基礎(chǔ)上,用函數(shù)關(guān)系組成的反饋回路、流等來模擬社會結(jié)果,實(shí)現(xiàn)社會作用機(jī)理的宏觀模擬。[18]與傳統(tǒng)路徑不同,計(jì)算傳播研究強(qiáng)調(diào)探究人類傳播動因和機(jī)制并不取決于個體的想法或意圖,而是著眼于從個體所嵌入的復(fù)雜的社會結(jié)構(gòu)中去發(fā)現(xiàn)傳播規(guī)律。因此,計(jì)算傳播學(xué)研究本質(zhì)上依托于對復(fù)雜網(wǎng)絡(luò)的挖掘和分析,旨在探索傳統(tǒng)定量研究所忽視的及受技術(shù)方法制約無法完成的大量網(wǎng)絡(luò)特征及相關(guān)性,以解決回歸或線性方案無法應(yīng)對的網(wǎng)絡(luò)依賴性和復(fù)雜性問題。

人工智能、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)

人工智能。人工智能(Artificial Intelligence)是“智能主體”(intelligent agents)如何最優(yōu)化決策過程的統(tǒng)稱,通過訓(xùn)練計(jì)算機(jī)模擬人類以完成自主學(xué)習(xí)、判斷、決策等智能行為,主要涵蓋視覺處理、語音識別、自然語言處理和智能機(jī)器人等應(yīng)用領(lǐng)域。

人工智能同時(shí)也是計(jì)算機(jī)科學(xué)的一個分支。其作為一門獨(dú)立的新型學(xué)科,是以1956年麥肯錫(McCarthy)在美國達(dá)特茅斯(Dartmouth)研討會上首次提出“人工智能”概念為標(biāo)志的。近年來,國際人工智能相關(guān)的研究和應(yīng)用領(lǐng)域取得突破性進(jìn)展,在國家發(fā)展戰(zhàn)略、科學(xué)研發(fā)、應(yīng)用創(chuàng)新等方面形成“井噴式”發(fā)展的態(tài)勢,同時(shí)人工智能的發(fā)展也為相關(guān)學(xué)科帶來了新機(jī)遇。[19]人工智能領(lǐng)域的發(fā)展具有跨學(xué)科的特性,總體上以計(jì)算機(jī)科學(xué)(Computer Science)、工程電氣類(Engineering,Electrical & Electronic)、醫(yī)學(xué)及成像類、數(shù)學(xué)類等理工學(xué)科為核心學(xué)科,由于對語音識別和自然語言處理的關(guān)注,其中還包括語言學(xué)(Linguistics),對于人工智能領(lǐng)域的跨學(xué)科發(fā)展具有關(guān)鍵性的作用;以神經(jīng)科學(xué)(Neurosciences)、心理學(xué)(Psychology)為代表的潛在學(xué)科也憑借其迅猛的增長率而在其中扮演著重要的角色。[20]

人工智能一般被分為弱人工智能(Artificial Narrow Intelligence, ANI)、強(qiáng)人工智能(Artificial General Intelligence, AGI)、超人工智能(Artificial Superintelligence,ASI)三種分類和發(fā)展階段。[21]我們今天討論的人工智能基本上還處于弱人工智能階段,例如,引發(fā)廣泛關(guān)注的谷歌AlphaGo和AlphaGoZero就屬于ANI的范疇。目前的人工智能還難以在認(rèn)識、學(xué)習(xí)和決策等綜合智能上與人類比肩,甚至超越人類智能。尤其在社會科學(xué)研究領(lǐng)域,弱人工智能主要是以完成特定的任務(wù)而存在的,例如語音識別、圖像識別和語言翻譯等。在實(shí)現(xiàn)方法上,弱人工智能采取的是基于統(tǒng)計(jì)和概率的方法,在特定的算法規(guī)則下基于大規(guī)模優(yōu)質(zhì)或混雜的語料庫,從數(shù)據(jù)中歸納出模型以發(fā)現(xiàn)普遍規(guī)律或最優(yōu)方案。[22]

機(jī)器學(xué)習(xí)。機(jī)器學(xué)習(xí)(machine learning)是人工智能的重要領(lǐng)域和主要發(fā)展方向之一。機(jī)器學(xué)習(xí)的核心是學(xué)習(xí),也就是讓計(jì)算機(jī)通過識別和利用現(xiàn)有數(shù)據(jù),模擬人的學(xué)習(xí)過程以獲得對研究者有意義的知識。互聯(lián)網(wǎng)上的傳播活動產(chǎn)生大量的圖像與文本數(shù)據(jù)——結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),因此必須根據(jù)先驗(yàn)的或已有知識對這類數(shù)據(jù)進(jìn)行特征抽取,并轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù)以建立模型,而機(jī)器學(xué)習(xí)正是解決這類問題的重要手段。[23]

就目前的計(jì)算傳播學(xué)研究實(shí)踐而言,機(jī)器學(xué)習(xí)更多被運(yùn)用于自動化的文本分析,[24]例如用于關(guān)鍵詞提取和共現(xiàn)分析的自然語言處理技術(shù),[25]有監(jiān)督的文本分類方法[26]、情感分析[27]以及語義網(wǎng)絡(luò)等。雖然自動化的文本分析技術(shù)極大地簡化了研究者繁瑣的文本編碼,并且能夠有效減少因主觀偏見帶來的誤差,但現(xiàn)有的文本分析技術(shù)還有很大的局限性,尤其大數(shù)據(jù)(包括各種媒體數(shù)據(jù)、時(shí)序數(shù)據(jù))具有屬性稀疏、超高維、高噪聲、數(shù)據(jù)漂移、關(guān)系復(fù)雜等特點(diǎn),傳統(tǒng)的機(jī)器學(xué)習(xí)算法也已難以有效處理和分析大數(shù)據(jù),必須借助分布式處理和并行計(jì)算或改進(jìn)數(shù)據(jù)挖掘算法。[28]

深度學(xué)習(xí)。深度學(xué)習(xí)(deep learning)源于人工神經(jīng)網(wǎng)絡(luò)(artificial neural network)的研究,是新興的多層神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法。在諸多機(jī)器學(xué)習(xí)理論中,神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)是借鑒人腦結(jié)構(gòu)及功能的一種抽象數(shù)學(xué)模型,通過由大量神經(jīng)元節(jié)點(diǎn)連接而組成的網(wǎng)絡(luò),模擬大腦信息處理、知識表征和學(xué)習(xí)的過程,因此也被稱為“連接主義”。從20世紀(jì)80年代末期以來,機(jī)器學(xué)習(xí)的發(fā)展大致經(jīng)歷了淺層學(xué)習(xí)(shallow learning)和深度學(xué)習(xí)兩個階段,[29]前者以反向傳播算法(back propagation, BP)為代表掀起了基于統(tǒng)計(jì)學(xué)方法的機(jī)器學(xué)習(xí)浪潮,隨后不同的淺層機(jī)器學(xué)習(xí)模型相繼出現(xiàn),比如傳統(tǒng)隱馬爾可夫模型(HMM)、條件隨機(jī)場(CRFs)、支持向量機(jī)(SVM)在模型結(jié)構(gòu)有一層隱含層(hidden layer)——單個將輸入信號轉(zhuǎn)換到特定問題空間特征的結(jié)構(gòu),而最大熵方法(比如,邏輯回歸,LR)則沒有隱含層。以2006年為界,自Hinton等人提出了深度置信網(wǎng)絡(luò)(DBN)和多層自動編碼器等解決深層結(jié)構(gòu)優(yōu)化問題的算法,成為之后深度學(xué)習(xí)算法的主要框架,對機(jī)器學(xué)習(xí)領(lǐng)域產(chǎn)生了極其重要的影響。

其中,卷積神經(jīng)網(wǎng)絡(luò)(CNNs)是第一個真正訓(xùn)練成功的多次結(jié)構(gòu)算法,[30]其網(wǎng)絡(luò)結(jié)構(gòu)受生物視覺模型的啟發(fā),通過用已知模式訓(xùn)練卷積網(wǎng)絡(luò),使得卷積網(wǎng)絡(luò)獲得輸入與輸出之間的非線性映射關(guān)系,而不追求它們之間精確的數(shù)學(xué)關(guān)系。目前,CNNs在圖像處理和視覺目標(biāo)識別方面已經(jīng)獲得了較高的精確度[31]。在傳播領(lǐng)域,計(jì)算機(jī)除了需要理解文本、語言所傳遞的人類語義信息的任務(wù)之外,非語言交流和圖像在人際溝通中無所不在也是人工智能亟待克服的問題,因?yàn)閷D形數(shù)據(jù)的學(xué)習(xí)有助于增進(jìn)對人類傳播行為的理解,比如,對政治運(yùn)動的理解以及網(wǎng)絡(luò)抗議和圖片的動員作用。[32]

人工智能在計(jì)算傳播研究中的應(yīng)用

不同于專門學(xué)科對人工智能技術(shù)和應(yīng)用的開發(fā)和推進(jìn)研究,國內(nèi)人文社會科學(xué)對人工智能研究的著力點(diǎn)主要側(cè)重于探討人工智能的邏輯和基礎(chǔ)認(rèn)識、挖掘人工智能的應(yīng)用空間、預(yù)判人工智能的社會性影響和后果等方面。[33]近年來,隨著計(jì)算科學(xué)的出現(xiàn),機(jī)器學(xué)習(xí)、深度神經(jīng)網(wǎng)絡(luò)等人工智能的算法和技術(shù)不斷擴(kuò)散、滲透進(jìn)入社會科學(xué)領(lǐng)域,在傳播研究中已經(jīng)出現(xiàn)和積累了不少以自動內(nèi)容分析、情感分析和網(wǎng)絡(luò)分析等為計(jì)算方法的研究經(jīng)驗(yàn)。

自動化內(nèi)容分析。在傳播學(xué)研究中,內(nèi)容分析(content analysis)通過強(qiáng)調(diào)信息處理和意義建構(gòu)而成為核心的研究方法之一,[34]它是一種“從文本(或其他有意義的事物)中對語義進(jìn)可復(fù)現(xiàn)的、有效的推理研究技術(shù)”。[35]但是傳統(tǒng)的內(nèi)容分析依靠大量的時(shí)間、人力和資金才能保證研究的可靠性,因此早期的傳播學(xué)研究就已經(jīng)引入計(jì)算機(jī)輔助的自動化內(nèi)容分析技術(shù)(Automated Content Analysis,ACA)。近年來,有監(jiān)督的機(jī)器學(xué)習(xí)(Supervised Machine Learning, SML)和語義網(wǎng)絡(luò)分析(Semantic Network Analysis, SNA)為自動化內(nèi)容分析提供了更加有效的算法實(shí)現(xiàn)和技術(shù)支持。機(jī)器學(xué)習(xí)將正確標(biāo)注的數(shù)據(jù)作為輸入以訓(xùn)練算法模型,訓(xùn)練的過程要求機(jī)器分類器(classifier)與人類編碼者在樣本數(shù)據(jù)集的編碼結(jié)果上達(dá)到高度一致,盡管計(jì)算機(jī)并不具備語言和語義理解的能力。通過對人工編碼材料的學(xué)習(xí),有監(jiān)督的分類方法能夠有效彌合傳統(tǒng)內(nèi)容分析和自動內(nèi)容分析之間的鴻溝。例如,研究者通過一項(xiàng)實(shí)驗(yàn)性的研究中評估了有監(jiān)督機(jī)器學(xué)習(xí)對大量語料數(shù)據(jù)進(jìn)行自動化分類的潛力,通過對德國在線新聞的既定主題類別進(jìn)行分類測試,發(fā)現(xiàn)自動化分類的可靠程度一般比人類編碼效度低15%,尤其當(dāng)分類被明確定義和有效標(biāo)注時(shí),機(jī)器學(xué)習(xí)對于某些類別來說通常是穩(wěn)健和可靠的。[36]

另外,有研究者(Pilny, McAninch, SloneA, etal.)[37]以“關(guān)系不確定性”(relational uncertainty)研究為案例,提出了一套結(jié)合SML算法的ACA方法在傳播學(xué)研究中的簡易操作程序和效度檢驗(yàn)方法,主要分為以下三個步驟。步驟1:從傳統(tǒng)內(nèi)容分析程序開始,包括確定分析單位(如論壇發(fā)帖)、編碼方案(如關(guān)系確定與否)和抽樣方法(如分層抽樣)等。步驟2:在計(jì)算評價(jià)者間的一致性信度的基礎(chǔ)上確立編碼的基準(zhǔn),然后將文本轉(zhuǎn)為供計(jì)算機(jī)處理的數(shù)據(jù),包括詞袋(bag of word)、字典(dictionary)、主體模型(topic modelling)等自然語言處理方法,并選擇最合適的SML算法類型,常用的學(xué)習(xí)方法有支持向量機(jī)(SVM)、隨機(jī)森林(Random Forest, RF)和樸素貝葉斯(Naïve Bayes, NB)等算法;接著進(jìn)行特征選擇(feature selection),包括過濾法(filter)、封裝法(wrapper)、嵌入法(embedded)等方法。最后,將上述模型算法用于文檔編碼與人工編碼(hold-out)進(jìn)行一致性檢驗(yàn),并與獨(dú)立的人工編碼標(biāo)準(zhǔn)做比較以評估模型的精度、召回率和F1值等指標(biāo)。步驟3:在獨(dú)立測試集的文本上測試算法的信度和效度,目的在于防止訓(xùn)練集的內(nèi)在聯(lián)系性而導(dǎo)致模型的過擬合(over fitting)現(xiàn)象,并通過補(bǔ)充調(diào)查建立機(jī)器分類方法的相關(guān)效度,主要包括聚合效度和區(qū)分效度兩個維度效度檢驗(yàn)。

除了有監(jiān)督的機(jī)器學(xué)習(xí),無監(jiān)督(unsupervised)自動化內(nèi)容分析方法也被廣泛運(yùn)用于諸如風(fēng)險(xiǎn)溝通研究中。[38]無監(jiān)督方法可以歸納地識別文本中的詞簇,其目的不在于搜索預(yù)定義的類別,而是為研究人員提供關(guān)于文本中可以找到哪些類別的信息,通過共現(xiàn)的關(guān)鍵詞可以確定意義的結(jié)構(gòu)和更抽象的文本結(jié)構(gòu),比如新聞或議題框架(frame)的識別。例如,在荷蘭公眾對機(jī)場風(fēng)險(xiǎn)討論的研究[39]和組織風(fēng)險(xiǎn)研究[40]中均使用了非監(jiān)督學(xué)習(xí)方法。

情感分析/意見挖掘。情感分析(Sentiment Analysis)或意見挖掘(Opinion Mining)通常被定義為尋找主體對特定實(shí)體的觀點(diǎn)、態(tài)度或情緒的任務(wù)。情感分析是計(jì)算機(jī)科學(xué)中最熱門的研究領(lǐng)域之一,已經(jīng)有超過7000篇關(guān)于這個主題的文章。[41]在新聞傳播領(lǐng)域,如政治傳播、公共傳播和品牌傳播相關(guān)的研究中,主要用于判斷相關(guān)文本所包含的態(tài)度是積極、正面的還是消極、負(fù)面的。[42]

文本的情感分析主要分為有監(jiān)督和無監(jiān)督學(xué)習(xí)兩類方法:(1)有監(jiān)督方法將文檔分類到有限的情感類別中,如正向、負(fù)向、中性等,或者表示為一些離散的數(shù)值范圍;給定訓(xùn)練數(shù)據(jù)后,系統(tǒng)將利用支持向量機(jī)、樸素貝葉斯、邏輯回歸、KNN等常用分類算法學(xué)習(xí)進(jìn)行情感分類;(2)無監(jiān)督方法則基于確定文檔中特定短語的語義指向(Semantic Orientation, SO),如果這些短語的平均SO超過某個預(yù)定的閾值,則文檔將被分類為正,否則將被視為負(fù),短語的選擇通常依據(jù)詞類模式或情感詞典。由于自然語言的復(fù)雜特點(diǎn),已有的機(jī)器學(xué)習(xí)方法一般很難取得較好的文本分類效果。然而,在特定的領(lǐng)域,使用機(jī)器學(xué)習(xí)算法根據(jù)文本的情感取向?qū)ξ谋具M(jìn)行分類的效果很好。

在政治傳播領(lǐng)域,有研究者[43]將有監(jiān)督的情感分析技術(shù)應(yīng)用于檢測推文對美國總統(tǒng)候選人的態(tài)度,采用基于詞典的(lexicon-based)方法——詞典通常來源于被分析的文本之外,經(jīng)由人工所注釋和驗(yàn)證——收集給定用戶關(guān)于候選人的所有推文,測量并確定該用戶對特定候選人的平均情緒得分;他們在Senti Strength情感分析軟件的基礎(chǔ)上,結(jié)合機(jī)器學(xué)習(xí)和t檢驗(yàn)的方法檢查了詞典在分析語料上的有效性并補(bǔ)充了情感詞匯,經(jīng)過抽樣測試,機(jī)器編碼得分與人工編碼的一致性達(dá)到82.8%。在中文語境下,基于SVM的監(jiān)督學(xué)習(xí)法還被有效地運(yùn)用于對微博文本的態(tài)度分類任務(wù)中,以研究關(guān)于中國“改革開放”的網(wǎng)絡(luò)論爭的態(tài)度傾向和變化,并使用查準(zhǔn)率(0.80)、查全率(0.80)、F1值(0.79)等指標(biāo)對模型進(jìn)行評估。[44]

也有研究者(Ortigosa, Martín, Carro)[45]基于字典和機(jī)器學(xué)習(xí)算法,提出了一種新的情緒分析混合方法,開發(fā)Facebook的應(yīng)用程序以檢索面向?qū)W生的情感極性(積極、中性和消極)狀況和情緒變化,通過將基于詞匯的預(yù)處理技術(shù)與SVM相結(jié)合得到的分類精度最高可達(dá)到83.27%,證明了從用戶在Facebook上所寫的信息中提取其準(zhǔn)確的情感信息是可行的。

相比于有監(jiān)督方法,無監(jiān)督學(xué)習(xí)方法依賴于語料所涉及的不同領(lǐng)域特征,對基準(zhǔn)情感詞的準(zhǔn)確度要求較高,廣泛應(yīng)用的難度和挑戰(zhàn)性也較大。然而,互聯(lián)網(wǎng)應(yīng)用場景和社交媒體容易產(chǎn)生并積累大量未標(biāo)記的數(shù)據(jù),而且獲得情緒標(biāo)簽的成本相對較高,因此無監(jiān)督方法有其施展拳腳的現(xiàn)實(shí)需求。例如,研究者Turney[46]在對汽車、銀行、電影及旅游等評論的情感分析中運(yùn)用了無監(jiān)督方法。他們將評論分成推薦和不推薦兩類,評論的分類是由評論短語中的形容詞或副詞的平均語義取向來進(jìn)行預(yù)測,使用互信息算法(PMI)分別計(jì)算文本短語與基本正向/負(fù)向情感詞的關(guān)聯(lián)度,以正向關(guān)聯(lián)度減去負(fù)向關(guān)聯(lián)度的差值來確定該文本的情感極性,如果其短語的平均語義取向?yàn)檎?,則將其分類為推薦。該算法在410條不同的評論分類中的準(zhǔn)確率為74%,介于汽車評論的84%和電影評論的66%之間。除此之外,無監(jiān)督的學(xué)習(xí)方法還被探索性地應(yīng)用于解決社交媒體的非正式文本交流[47]、表情符號[48]以及中文評論[49]等情感分類問題。

社會網(wǎng)絡(luò)分析。自20世紀(jì)70年代以來,傳播學(xué)研究者利用社會網(wǎng)絡(luò)分析來理解大眾傳播、健康傳播、組織傳播和人際傳播。社交網(wǎng)絡(luò)由一組節(jié)點(diǎn)和節(jié)點(diǎn)之間的一個或多個關(guān)系組成,節(jié)點(diǎn)是特定的實(shí)體,包括個人、媒體、組織、群體、機(jī)構(gòu)等,或者是詞語、事件、議題等抽象概念。隨著互聯(lián)網(wǎng)和社交媒體的發(fā)展,出現(xiàn)了很多社會網(wǎng)絡(luò)數(shù)據(jù),包括電郵交換網(wǎng)絡(luò)、博客網(wǎng)絡(luò)、在線社交網(wǎng)絡(luò)、在線文獻(xiàn)引文庫等。這些關(guān)系型數(shù)據(jù)的規(guī)模較大,且結(jié)構(gòu)復(fù)雜多變,已經(jīng)成為影響社會個體行為改變和傳播關(guān)系形成的結(jié)構(gòu)性變量和因素。社會網(wǎng)絡(luò)又屬于復(fù)雜網(wǎng)絡(luò)(Complex Network)的一種,后者以網(wǎng)絡(luò)的幾何性質(zhì)、結(jié)構(gòu)穩(wěn)定性、形成機(jī)制、網(wǎng)絡(luò)演化的統(tǒng)計(jì)規(guī)律和動力學(xué)機(jī)制等為主要研究問題,成為推動網(wǎng)絡(luò)科學(xué)和復(fù)雜性科學(xué)的發(fā)展的前沿領(lǐng)域。在計(jì)算機(jī)科學(xué)中,社會網(wǎng)絡(luò)分析是一個非常新的研究領(lǐng)域,可以看成網(wǎng)絡(luò)知識發(fā)現(xiàn)或網(wǎng)絡(luò)挖掘的一個分支,涉及數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、信息抽取與檢索等不同領(lǐng)域。

傳統(tǒng)機(jī)器學(xué)習(xí)的處理的數(shù)據(jù)往往由多個屬性值的向量來表示,而且屬性之間具有獨(dú)立性;而社會網(wǎng)絡(luò)數(shù)據(jù)中的節(jié)點(diǎn)并非統(tǒng)計(jì)上獨(dú)立的采樣點(diǎn),而是相互之間存在依賴性。因此,使用機(jī)器學(xué)習(xí)技術(shù),需要考慮數(shù)據(jù)實(shí)例之間的關(guān)系,由此產(chǎn)生了一個新興的研究方向——鏈接挖掘[50]。常見的鏈路挖掘任務(wù)包括對象排序(object ranking)、群體發(fā)現(xiàn)(group detection)、集群分類(collective classification)、鏈路預(yù)測(link prediction)和子圖發(fā)掘(subgraph discovery)等。

以鏈路預(yù)測為例,它既是社會網(wǎng)絡(luò)分析的重要研究領(lǐng)域,也是數(shù)據(jù)挖掘領(lǐng)域的研究方向之一,旨在通過節(jié)點(diǎn)屬性和已觀察到的鏈接來預(yù)測未知或未來鏈接的存在,研究的思路和方法主要基于馬爾科夫鏈和機(jī)器學(xué)習(xí)。[51]例如,研究者將鏈接預(yù)測作為一種監(jiān)督學(xué)習(xí)任務(wù)來研究,在確定一系列重要的網(wǎng)絡(luò)特征的基礎(chǔ)上,使用不同的性能指標(biāo),如準(zhǔn)確性,精確度-召回率,F(xiàn)值,平方誤差等,比較不同類別的監(jiān)督學(xué)習(xí)算法的預(yù)測性能,其中包括決策樹(decision-tree)、支持向量機(jī)、K近鄰(K-NN)、多層感知器、RBF網(wǎng)絡(luò)等算法,以發(fā)現(xiàn)支持向量機(jī)在所有性能指標(biāo)上均略優(yōu)于其他算法。

隨著信息網(wǎng)絡(luò)數(shù)據(jù)的規(guī)模越來越大,單個網(wǎng)絡(luò)可能包含數(shù)十億個節(jié)點(diǎn)和關(guān)系,傳統(tǒng)的社會網(wǎng)絡(luò)分析方法和技術(shù)難以處理如此龐大而復(fù)雜的網(wǎng)絡(luò)推理過程。因此,必須解決網(wǎng)絡(luò)表示學(xué)習(xí)(Network Representation Learning)的問題,其中網(wǎng)絡(luò)嵌入(network embedding)是學(xué)習(xí)網(wǎng)絡(luò)中節(jié)點(diǎn)低維表示的一種重要方法,其中心思想就是找到一種映射函數(shù),使得網(wǎng)絡(luò)中的每個節(jié)點(diǎn)轉(zhuǎn)換為低維度的潛在表示。目前流行的方法為無監(jiān)督的深度學(xué)習(xí)算法,主要包括Deep Walk、LINE、PTE和Node2vec等。[52]Deep Walk(即深度游走)是第一個被提出來使用表示學(xué)習(xí)方法,本質(zhì)上是隨機(jī)游走(Random Walk)和神經(jīng)語言模型中的skip-gram的算法組合;Node2vec則是Deep Walk的擴(kuò)展,它引入了一個偏向的隨機(jī)游走程序,是結(jié)合廣度優(yōu)先搜索(BFS)和深度優(yōu)先搜索(DFS)的領(lǐng)域搜索算法。[53]

最近,在健康傳播研究領(lǐng)域,Node2vec這種先進(jìn)的深度學(xué)習(xí)方法已經(jīng)被用于研究在線論壇關(guān)于艾滋病交流的社會支持現(xiàn)象,研究者利用網(wǎng)絡(luò)嵌入(即Node2vec)算法將論壇的每個成員表示為一個密集的向量,并結(jié)合聚類方法識別樣本中不同的子種群和模式。另外,一項(xiàng)討論社交媒體中疫苗接種與人類價(jià)值觀關(guān)系的研究[54]也采用了網(wǎng)絡(luò)嵌入的學(xué)習(xí)方法,基于對人們在Facebook“喜好”頁面上的共現(xiàn)關(guān)系,利用Node2vec算法實(shí)現(xiàn)完全無監(jiān)督學(xué)習(xí),而不需要任何個體的先驗(yàn)信息,使同一鄰域的節(jié)點(diǎn)保持“結(jié)構(gòu)”等價(jià)性或同質(zhì)性,從而探索反對疫苗接種者的共同興趣。在基于嵌入模型的弱監(jiān)督學(xué)習(xí)過程中,研究者Raisi &Huang[55]借助Word2vec和Node2vec模型分別將語言和用戶表示為實(shí)數(shù)向量,用于實(shí)現(xiàn)對社交媒體網(wǎng)絡(luò)欺凌的檢測。

未來與展望

人工智能的迅猛發(fā)展已經(jīng)影響到社會經(jīng)濟(jì)發(fā)展的方方面面,促進(jìn)了科學(xué)與行業(yè)應(yīng)用的深度結(jié)合,不僅推動了智能生活和智慧社會的構(gòu)建,也深刻地改變了科學(xué)研究的深度和廣度。在新聞業(yè),人工智能已經(jīng)滲透到新聞編輯室及新聞生產(chǎn)過程中,自動化新聞寫作(Automated Writing)已然成為世界新聞業(yè)的新浪潮。但從社會科學(xué)研究的角度來說,我們更關(guān)注人工智能技術(shù)的發(fā)展為社會科學(xué)研究思維和研究方法所帶來的挑戰(zhàn)和機(jī)遇。在人工智能的引擎驅(qū)動下,數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)和深度學(xué)習(xí)等領(lǐng)域的知識創(chuàng)新和技術(shù)研發(fā),為大數(shù)據(jù)時(shí)代新聞傳播學(xué)的新研究范式——計(jì)算傳播學(xué)的興起和成長插上了想象的翅膀,提高了計(jì)算機(jī)輔助的研究手段在智能時(shí)代的功能和效率,突破了人類研究者在認(rèn)識和理解復(fù)雜社會問題上所需體力、感官和智力的限制和禁錮。從研究方法、工具和策略創(chuàng)新的角度出發(fā),人工智能視域下的計(jì)算傳播學(xué)研究還存在進(jìn)一步發(fā)展的空間。

建立可擴(kuò)展的、廣泛的自動化內(nèi)容分析框架。隨著計(jì)算方法的日益普及,不同的研究者在不同的研究課題上進(jìn)行獨(dú)立的研究工作,研究人員可能會使用特定的程序或付費(fèi)服務(wù)采集數(shù)據(jù),并使用不同的程序處理、計(jì)算和展示數(shù)據(jù)。這并不利于科學(xué)研究的持續(xù)性和可復(fù)現(xiàn)性。因此,我們迫切需要建立人工智能環(huán)境下使用和實(shí)現(xiàn)自動化內(nèi)容分析的技術(shù)和操作標(biāo)準(zhǔn)。我們可以借鑒已有研究者(Trilling & Jonkman)[56]提出了擴(kuò)展自動化內(nèi)容分析框架的四個基本標(biāo)準(zhǔn)和思路,即可擴(kuò)展性(scalability)、開源(open source)、適用性(adaptability)以及多界面(multiple interfaces)。

(1)可擴(kuò)展性:當(dāng)研究數(shù)據(jù)的規(guī)模較大時(shí),研究者用于存儲和計(jì)算的軟件和算法必須具有可延展性,既要提高算法的效率(如對小數(shù)據(jù)采用稀疏矩陣),同時(shí)也要合理布局?jǐn)?shù)據(jù)存儲和處理的模塊結(jié)構(gòu),例如,將非關(guān)系型的數(shù)據(jù)庫(NoSQL)作為數(shù)據(jù)綜合處理的后臺。(2)開源:軟件開源和代碼共享有助于科學(xué)研究的重復(fù)檢驗(yàn)和錯誤發(fā)現(xiàn),而不是讓算法和操作過程成為“黑箱”,由于文本分析和機(jī)器學(xué)習(xí)的包或組件(如NLTK、scikit-learn、gensim等)的廣泛可用性,因此用Python編程語言實(shí)現(xiàn)開源可能是一個不錯的選擇。(3)適用性:與前兩個標(biāo)準(zhǔn)緊密相關(guān),適用性要求框架應(yīng)該足夠靈活、彈性,使不同能力的研究者能夠通過合理的努力調(diào)整和擴(kuò)展框架,不應(yīng)該存在任何阻止分析來自不同語言和腳本的上下文的障礙,例如傳播學(xué)者常常會面臨的來自社交網(wǎng)絡(luò)的表情符號、標(biāo)簽和混合語言等字符編碼問題;同時(shí),對研究項(xiàng)目的集成能力要求也將有助于提升框架的適應(yīng)性。(4)多界面:雖然很多機(jī)器學(xué)習(xí)的自動化內(nèi)容分析技術(shù)已經(jīng)為人所知,特別是在計(jì)算機(jī)科學(xué)等領(lǐng)域,但是能夠應(yīng)用這些方法的傳播學(xué)者卻相對較少。同時(shí),考慮技術(shù)的易用性不能以犧牲強(qiáng)化內(nèi)容分析框架的可擴(kuò)展性和適用性為代價(jià),所以應(yīng)該提供對框架的多種訪問方法(如web界面、命令行界面、API等),以讓具有不同需求和技術(shù)水平的研究小組都可以輕松駕馭。

為計(jì)算傳播研究領(lǐng)域引入更豐富的深度學(xué)習(xí)策略。傳播學(xué)研究的計(jì)算范式方興未艾,雖然許多包括自動化文本分類、主題模型、情感分析、網(wǎng)絡(luò)嵌入等機(jī)器學(xué)習(xí)算法已經(jīng)被部分研究者引入傳播研究中,但其應(yīng)用范圍依然十分有限;而且,傳播學(xué)者整體上對機(jī)器學(xué)習(xí)的理解和運(yùn)用程度還不及其他社會科學(xué),如管理學(xué)、經(jīng)濟(jì)學(xué)和社會學(xué)等,更不用說計(jì)算機(jī)科學(xué)、網(wǎng)絡(luò)科學(xué)等學(xué)科的研究者。從現(xiàn)有研究的成果來看,傳播學(xué)者對文本或其他數(shù)據(jù)的處理主要采用傳統(tǒng)的有監(jiān)督學(xué)習(xí)方法,比如最大熵、支持向量機(jī)等淺層次學(xué)習(xí),而鮮有對深度學(xué)習(xí)算法(如RNN、CNN、DNN等神經(jīng)網(wǎng)絡(luò)等)的涉獵,雖然深層網(wǎng)絡(luò)結(jié)構(gòu)的學(xué)習(xí)算法在自然語言處理、語音識別和圖像識別方面已經(jīng)取得很好的應(yīng)用效果。如果這些學(xué)習(xí)方法被有效地引入計(jì)算傳播學(xué)的研究當(dāng)中,將有助于將數(shù)據(jù)處理從傳統(tǒng)的結(jié)構(gòu)型數(shù)據(jù)擴(kuò)展至非正式文本、語音、圖像等非結(jié)構(gòu)或半結(jié)構(gòu)數(shù)據(jù)。

由于社交媒體中人們的情感、態(tài)度和觀點(diǎn)很可能以表情、標(biāo)簽、圖片和視頻等形式存在,一般的自動化文本分類方法難以應(yīng)付這類數(shù)據(jù)。比如,針對短文本的文本分類任務(wù),由于缺少上下文,短文本(如推文、微博等)在表示時(shí)通常會遇到數(shù)據(jù)稀疏性和模糊性問題。卷積神經(jīng)網(wǎng)絡(luò)(CNN)的深度學(xué)習(xí)算法,如基于詞嵌入的深度學(xué)習(xí)模型,[57]無論是結(jié)合語義聚類信息的有監(jiān)督學(xué)習(xí)模型,[58]還是無監(jiān)督神經(jīng)語言模型[59]都能夠準(zhǔn)確地完成情感分類學(xué)習(xí)。

對社會媒體中大規(guī)模的視覺內(nèi)容進(jìn)行情感分析,可以更好地提取用戶對特定事件或話題的情感。一項(xiàng)深度學(xué)習(xí)的研究[60]采用基線情緒算法來標(biāo)記網(wǎng)絡(luò)相冊的圖片,提出了一種漸進(jìn)的策略來微調(diào)深層卷積神經(jīng)網(wǎng)絡(luò)用于圖像的情感分析;還有研究借助網(wǎng)絡(luò)相片的標(biāo)簽作為統(tǒng)計(jì)線索來檢測圖像中描述的情緒,利用卷積神經(jīng)網(wǎng)絡(luò)模型對大型可視化數(shù)據(jù)庫(ImageNet)進(jìn)行了有效的情感分類[61]。

對視覺內(nèi)容的情感預(yù)測是對文本情感分析的極其重要的補(bǔ)充。因此,與單獨(dú)對文本和圖像進(jìn)行情感分析相比,文本和圖像的結(jié)合可以更充分地揭示用戶情感。鑒于此,有研究者開始關(guān)注多媒體(multimedia,即文本、圖像)情緒分析深度學(xué)習(xí)方法[62],以及基于多核學(xué)習(xí)算法(multiple kernellearning, MKL)的多模態(tài)(multimodal)情感分析[63]。

不同于文本分類學(xué)習(xí)的火熱,口頭語言的情感識別(emotion recognition)至今仍然是研究較少的課題,曾有研究者(Nicholson, Takahashi & Nakatsu)[64]提出了一種基于神經(jīng)網(wǎng)絡(luò)的語音情感識別系統(tǒng),利用大型音素詞數(shù)據(jù)庫,實(shí)現(xiàn)了說話者與上下文的獨(dú)立,該系統(tǒng)對八種情緒的測試識別率達(dá)到了50%左右。然而,值得我們注意的是,人工神經(jīng)網(wǎng)絡(luò)的缺陷就是其典型的“黑箱”效應(yīng),即通過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)所學(xué)到的知識及其背后的機(jī)制難以為人們所理解,深層神經(jīng)網(wǎng)絡(luò)的集成化又加劇了這一問題解決的難度。所以,這是計(jì)算傳播學(xué)者在使用深度學(xué)習(xí)策略并解讀機(jī)器學(xué)習(xí)結(jié)果時(shí)應(yīng)該深刻認(rèn)知的前提和基礎(chǔ)。

跨學(xué)科合作推動人工智能與計(jì)算傳播研究的深度融合。大數(shù)據(jù)和人工智能時(shí)代的計(jì)算傳播學(xué),在方法層面的創(chuàng)新是具有跨學(xué)科意義的。傳播學(xué)在社會科學(xué)中一直是“領(lǐng)域?qū)W科”,具有“十字路口”的特征,尤其是新媒體和社交媒體的出現(xiàn),傳播學(xué)研究的問題和對象更是諸多學(xué)科紛紛涉足的領(lǐng)域,與此相反的是,當(dāng)前傳播學(xué)對其他學(xué)科方法的運(yùn)用和貢獻(xiàn)依然表現(xiàn)乏力。因而,傳播領(lǐng)域向計(jì)算科學(xué)的演變,將帶來促進(jìn)該領(lǐng)域內(nèi)部進(jìn)行方法創(chuàng)新和發(fā)展的希望。

計(jì)算傳播學(xué)以互聯(lián)網(wǎng)環(huán)境下人類傳播行為為研究客體,有著深厚傳播學(xué)傳統(tǒng)和大數(shù)據(jù)研究的基因,借助數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)的理論和方法發(fā)展起來的計(jì)算范式,正在成長為計(jì)算社會科學(xué)中的一股蓬勃向上的新生力量。人工智能同樣也是跨學(xué)科的新興領(lǐng)域,自然科學(xué)與人文社會科學(xué)的交叉協(xié)作促進(jìn)了機(jī)器學(xué)習(xí)、深度學(xué)習(xí)走向更廣闊、更深邃的科研疆域。對于計(jì)算傳播學(xué)而言,一方面,我們欣喜地看到越來越多具有理工科訓(xùn)練背景(如物理學(xué)、計(jì)算機(jī)科學(xué)、生物學(xué)、數(shù)學(xué)等)的學(xué)者進(jìn)入這個領(lǐng)域并扮演重要的角色;另一方面,目前機(jī)器學(xué)習(xí)的方法和策略框架尚未為更多計(jì)算傳播學(xué)者所熟悉和使用,尤其是基于深度學(xué)習(xí)的社會網(wǎng)絡(luò)和復(fù)雜網(wǎng)絡(luò)理論和方法,在鏈接挖掘、網(wǎng)絡(luò)表示學(xué)習(xí)、網(wǎng)絡(luò)嵌入等方面的學(xué)習(xí)算法和應(yīng)用技術(shù),亟待更多的研究者去學(xué)習(xí)、挖掘和擴(kuò)展。

當(dāng)然,未來可期,當(dāng)更多前沿的計(jì)算方法和機(jī)器學(xué)習(xí)技術(shù)進(jìn)入這個領(lǐng)域時(shí),傳播學(xué)者將處于獨(dú)特的戰(zhàn)略地位,參與甚至領(lǐng)導(dǎo)計(jì)算方法的發(fā)展,這些方法有望為整個社會科學(xué)的提供關(guān)于人類互動本質(zhì)和傳播效果的新穎的、令人興奮的見解,[65]從而使計(jì)算傳播學(xué)超越學(xué)科的界限而成為真正的“超學(xué)科”社會科學(xué)研究,也就是以人類交流傳播為基礎(chǔ)性問題,以多學(xué)科(主要是傳播學(xué)、數(shù)據(jù)科學(xué)、網(wǎng)絡(luò)科學(xué)等)方法融合為統(tǒng)一的方法框架、以“現(xiàn)象學(xué)”意義上的大數(shù)據(jù)為經(jīng)驗(yàn)基礎(chǔ),實(shí)現(xiàn)人工智能與計(jì)算傳播學(xué)的深度融合和跨越式發(fā)展。

(深圳大學(xué)傳播學(xué)院副研究員黃文森對本文亦有貢獻(xiàn))

注釋

[1]Lazer, D.; Pentland, A. & Adamic, L. et al., "Computational Social Science", Science, 2009, 323(5915), pp. 721-723.

[2][5]Van Atteveldt, W. and Peng, T. Q., "When Communication Meets Computation: Opportunities, Challenges, and Pitfalls in Computational Communication Science", Communication Methods and Measures, 2018, 12(2-3), pp. 81-92.

[3][22]羅?。骸队?jì)算社會科學(xué)與人工智能》,《貴州師范大學(xué)學(xué)報(bào)(社會科學(xué)版)》, 2016年第6期,第40~42頁。

[4]Shah, D. V.; Cappella, J. N. & Neuman, W. R., "Big Data, Digital Media, and Computational Social Science: Possibilities and Perils", The ANNALS of the American Academy of Political and Social Science, 2015, 659(1), pp. 6-13.

[6]Peng, T. Q.; Liang, H. & Zhu, J. H., "Introducing Computational Social Science for Asia-Pacific Communication Research", Asian Journal of Communication, 2019, 29(3), pp. 205–216.

[7]羅衛(wèi)東:《跨學(xué)科社會科學(xué)研究:理論創(chuàng)新的新路徑》,《浙江社會科學(xué)》,2007年第2期,第35~41頁。

[8]Poole, M. S., "Generalization in Process Theories of Communication", Communication Methods & Measures, 2007, 1(3), pp. 181-190.

[9][24][65]Hilbert, M.; Barnett, G. & Blumenstock, J. et al., "Computational Communication Science: A Methodological Catalyzer for a Maturing Discipline", International Journal of Communication, 2019, 13, p. 23.

[10]Zhu, J. H.; Zhou, Y. & Guan, L. et al., "Applying User Analytics to Uses and Effects of Social Media in China", Asian Journal of Communication, 2019, 29(3), pp. 291-306.

[11]Webster, J. G.; Phalen, P. F. and Lichty, L. W., Ratings Analysis: Audience Measurement and Analytics, 4th Edition, UK: Routledge, 2014.

[12][17]沈浩、黃曉蘭:《大數(shù)據(jù)助力社會科學(xué)研究:挑戰(zhàn)與創(chuàng)新》,《現(xiàn)代傳播(中國傳媒大學(xué)學(xué)報(bào))》,2013年第35卷第8期,第13~18頁。

[13]Zumel, N. and Mount, J., Practical Data Science with R, Manning Publications Co., 2014.

[14]Tony; Stewart & Kristin, "The Fouth Paradigm: Data-Intensive Scientific Discover",  Microsoft Research, 2009.

[15]方錦清、汪小帆、鄭志剛等:《一門嶄新的交叉科學(xué):網(wǎng)絡(luò)科學(xué)(上)》,《物理學(xué)進(jìn)展》, 2007年 27卷第3期,第239~343頁。

[16]Watts, D. J., "A Twenty-first Century Science", Nature, 2007, 445(7127), p. 489.

[18]米加寧、章昌平、李大宇、林濤:《第四研究范式:大數(shù)據(jù)驅(qū)動的社會科學(xué)研究轉(zhuǎn)型》,《社會科學(xué)文摘》,2018年第4期,第20~22頁。

[19]王延飛、劉記、趙柯然、陳美華:《智能信息技術(shù)發(fā)展現(xiàn)狀、趨勢與影響透視》,《情報(bào)學(xué)進(jìn)展》,2018年第12卷,第117~153頁。

[20]姚艷玲、開濱:《近五十年國際上人工智能領(lǐng)域跨學(xué)科演變研究》,《計(jì)算機(jī)工程與應(yīng)用》,2017年第53卷第19期,第8~16頁。

[21]Spiegeleire, S.; Maas, M. & Sweijs, T., Artificial Intelligence and the Future of Defense: Strategic Implications for Small and Medium Sized Force Providers, The Hague Centre for Strategic Studies, 2017.

[23]王玨、石純一:《機(jī)器學(xué)習(xí)研究》,《廣西師范大學(xué)學(xué)報(bào)(自然科學(xué)版)》,2003年第2期,第1~15頁。

[25]Arendt, F. and Karadas, N., "Content Analysis of Mediated Associations: An Automated Text-analytic Approach", Communication Methods and Measures, 2017, 11(2), pp. 105-120.

[26]Scharkow, M., "The Maticcontent Analysis Using Supervised Machine Learning: An Empirical Evaluation Using German Online News", Quality & Quantity, 2013, 47(2), pp. 761-773.

[27]Ceron, A.; Curini, L. & Iacus, S., "To What Extent Sentiment Analysis of Twitter is Able to Forecast Electoral Results? Evidence from France, Italy and the United States", ECPR General Conference, 2013, pp. 5-8.

[28]何清、李寧、羅文娟、史忠植:《大數(shù)據(jù)下的機(jī)器學(xué)習(xí)算法綜述》,《模式識別與人工智能》,2014年第27卷第4期,第327~336頁。

[29]余凱、賈磊、陳雨強(qiáng)、徐偉:《深度學(xué)習(xí)的昨天、今天和明天》,《計(jì)算機(jī)研究與發(fā)展》,2013年第50卷第9期,第1799~1804頁。

[30]Le Cun, Y.; Boser, B. & Denker, J. S. et al., "Back Propagation Applied to Hand Written Zip Code Recognition", Neural Computation, 1989, 1(4), pp. 541-551.

[31]Krizhevsky, A; Sutskever, I. & Hinton, G. E., "Image Net Classification with Deep Convolutional Neural Networks", Advances in Neural Information Processing Systems, 2012, pp. 1097-1105.

[32]Casas, A. and Williams, N. W., "Images that Matter: Online Protests and the Mobilizing Role of Pictures", Political Research Quarterly, 2019, 72(2), pp. 360-375.

[33]梅立潤:《國內(nèi)社會科學(xué)范疇中人工智能研究的學(xué)術(shù)版圖》,《內(nèi)蒙古社會科學(xué)(漢文版)》,2019年第40卷第3期,第203~212頁。

[34]Lacy, S.; Watson, B. R., & Riffe, D. et al., "Issues and Best Practices in Content Analysis", Journalism & Mass Communication Quarterly, 2015, 92(4), pp. 791-811.

[35]Krippendorff, K., Content analysis: An introduction to Its Methodology, Sage Publications, 2018.

[36]Mahrt, M. and Scharkow, M., "The Value of Big Data in Digital Media Research", Journal of Broadcasting & Electronic Media, 2013, 57, pp. 20-33. 

[37]Pilny, A.; McAninch, K. & Slone, A., et al., "Using Supervised Machine Learning in Automated Content Analysis: An Example Using Relational Uncertainty", Communication Methods and Measures, 2019, pp. 1-18.

[38][40]Vander Meer and Toni GLA, "Automated Content Analysis and Crisis Communication Research", Public Relations Review 42.5, 2016, pp. 952-961.

[39]Jonkman and Jeroen, "Verhoeven, Piet, From Risk to Safety: Implicit Frames of Third-party Airport Risk in Dutch Quality Newspapers between 1992 and 2009", Safety Science, 2013, 58, pp. 1-10

[41]Feldman, R., "Techniques and Applications for Sentiment Analysis", Communications of the ACM, 2013, 56(4), pp. 82-89.

[42]鐘智錦、王童辰:《大數(shù)據(jù)文本挖掘技術(shù)在新聞傳播學(xué)科的應(yīng)用》,《當(dāng)代傳播》, 2018年第202卷第5期,第14~20頁。

[43]Vargo, C. J; Guo, L. & McCombs, M. et al., "Network Issue Agendas on Twitter During the 2012 US Presidential Election", Journal of Communication, 2014, 64(2), pp. 296-316.

[44]鄭雯、桂勇、黃榮貴:《論爭與演進(jìn):作為一種網(wǎng)絡(luò)社會思潮的改革開放——以2013~2018年2.75億條微博為分析樣本》,《新聞記者》,2019年第1期,第51~62頁。

[45]Ortigosa, A.; Martín, J. M. & Carro, R. M., "Sentiment Analysis in Facebook and Its Application to E-learning", Computers in Human Behavior, 2014, 31, pp. 527-541.

[46]Turney, P. D., "Thumb Support Humbsdown?: Semantic Orientation Applied to Unsupervised Classification of Reviews", Proceedings of the 40th Annual Meeting on Association for Computational Linguistics, 2002, pp. 417-424.

[47]Paltoglou, G. and Thelwall, M., "Twitter, MySpace, Digg: Unsupervised Sentiment Analysis in Social Media", ACM Trans Intell Syst Technol (TIST), 2012, 3(4), p. 66.

[48]Hu, X.; Tang, J. & Gao, H. et al., "Unsupervised Sentiment Analysis with Emotional Signals", Proceedings of the 22nd International Conference on WorldWideWeb. ACM, 2013, pp. 607-618.

[49]Zhai, Z.; Xu, H. & Jia, P., "An Empirical Study of Unsupervised Semantic Classification of Chinese Reviews", Tsinghua Science and Technology, 2010, 15(2), pp. 133-137.

[50]Getoor, L. and Diehl, C. P , "Link Mining: A Survey", Acm Sigkdd Explorations Newsletter, 2005, 7(2), pp. 3-12.

[51]呂琳媛:《復(fù)雜網(wǎng)絡(luò)鏈路預(yù)測》,《電子科技大學(xué)學(xué)報(bào)》,2010年第5期,第651~661頁。 

[52]Qiu, J.; Dong, Y., & Ma, H. et al., "Network Embedding A Smatrix Factorization: Unifying Deep Walk, Line, Pte, and Node2vec", Proceedings of the Eleventh ACM International Conference on Web Search and Data Mining. ACM, 2018, pp. 459-467.

[53]Grover, A. and Leskovec, J., "Node2vec: Scalable Feature Learning for Networks", Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Francisco, August 2016, 13-17, pp. 855-864. 

[54]Kalimeri, K.; GBeiró, M. & Urbinati, A., et al., "Human Values and Attitudes towards Vaccination in Social Media", Companion Proceedings of The 2019 WorldWideWeb Conference. ACM, 2019, pp. 248-254.

[55]Raisi, E. and Huang, B., "Co-trained Ensemble Models for Weakly Supervised Cyberbullying Detection", NIPS Workshop on 

Learning with Limited Labeled Data, 2017.

[56]Trilling; Damian; Jonkman & Jeroen, G. F., "Scaling up Content Analysis", Communication Methods and Measures, 2018, 12(2/3), pp. 158-174.

[57]Mikolov, T.; Sutskever, I. & Chen, K. et al., "Distributed Representations of Words and Phrases and the Incompositionality", Advances in Neural Information Processing Systems, 2013, pp. 3111-3119.

[58]Wang, P.; Xu, J. & Xu, B. et al., "Semantic Clustering and Convolutional Neural Network for Short Text Categorization", Proceedings of the 53rd Annual Meeting of the Association for Computational Linguistics and the 7th International Joint Conference on Natural Language Processing, Volume 2, Short Papers, 2015, pp. 352-357.

[59]Severyn, A. and Moschitti, A., "Twitter Sentiment Analysis with Deep Convolutional Neural Networks", Proceedings of the 38th International ACM SIGIR Conference on Research and Development in Information Retrieval. ACM, 2015, pp. 959-962.

[60]You, Q.; Luo, J. & Jin, H. et al., "Robust Image Sentiment Analysis Using Progressively Trained and Domain Transferred Deep Networks", Twenty-ninth AAAI Conference on Artificial Intelligence, 2015.

[61]Chen, T.; Borth, D. & Darrell, T. et al., "Deep Sentibank: Visual Sentiment Concept Classification with Deep Convolutional Neural Networks", arXiv preprint arXiv: 1410. 8586, 2014.

[62]Cai, G. and Xia, B., "Convolutional Neural Networks for Multimedia Sentiment Analysis", Natural Language Processing and Chinese Computing, Springer, Cham, 2015, pp. 159-167.

[63]Poria, S.; Peng, H. & Hussain, A. et al., "Ensemble Application of Convolutional Neural Networks and Multiple Kernel Learning for Multimodal Sentiment Analysis", Neuro Computing, 2017, 261, pp. 217-230.

[64]Nicholson, J.; Takahashi, K. & Nakatsu, R., "Emotion Recognition in Speech Using Neural Networks", Neural Computing & Applications, 2000, 9(4), pp. 290-296.

責(zé) 編/周于琬

Artificial Intelligence and Computational Communication

Chao Naipeng

Abstract: Artificial intelligence (AI) has swept the world, not only changing the way of human life and communicative behaviors, but also changing the way people observe and understand the world. The computational paradigm driven by AI and big data has extended to the field of social science. Influenced and inspired by the traditional quantitative research paradigm of communications, data science and network science, computational communication is developing rapidly and has become one of the most important branches of computational social science. From data mining to machine learning, and to deep learning, AI algorithm and technology has greatly improved the accuracy and efficiency of big data processing. At present, by combining with the unsupervised and supervised learning methods, automatic content analysis, emotional analysis and social network analysis can provide computational communication with research strategies and experience in terms of data processing, integration and analysis. In the future, by developing and establishing an extensible automatic content analysis framework and system, introducing more in-depth learning strategies and innovating interdisciplinary research methods, it will help AI and computational communication to achieve deeper integration in a broader interdisciplinary field.

Keywords: Computational communication, artificial intelligence, machine learning, deep learning

巢乃鵬,深圳大學(xué)傳播學(xué)院院長、教授、博導(dǎo)。研究方向?yàn)榫W(wǎng)絡(luò)傳播與新媒體研究、計(jì)算傳播學(xué)。主要著作有《網(wǎng)絡(luò)受眾心理行為研究:一種信息查尋的研究范式》《網(wǎng)絡(luò)廣告原理與實(shí)務(wù)》《網(wǎng)絡(luò)媒體經(jīng)營與管理》等。

[責(zé)任編輯:周于琬]