meme卡片集 | ?marble.cards
導(dǎo)語(yǔ)
模因(meme,又譯作覓母、迷因),俗稱“梗”,是指基因一樣依賴宿主、復(fù)制傳播的“文化基因”。今年的一篇論文,構(gòu)建了模因在網(wǎng)絡(luò)上傳播的動(dòng)力學(xué)模型,本文將詳細(xì)介紹這項(xiàng)工作。
目 錄
1 傳統(tǒng)疾病傳播的模型概述
2 模因是怎樣傳播的
3 模因傳播的基礎(chǔ)模型
4 模因的傳播的混合通用模型
5 用于驗(yàn)證數(shù)據(jù)集概述
6 參數(shù)擬合
7 預(yù)測(cè)模因的流行
8 和疾病模型的對(duì)比
自從在《自私的基因》中第一次亮相,模因(meme)這個(gè)概念一步步地把她自身變成了廣為傳播的模因。與生物學(xué)的基因相比,模因指的是文化傳播中具有固定功能的一個(gè)組件。正如侯世達(dá)所言,她如同在大腦之間跳躍著的火花一樣引人注意又能夠傳播。比如藝術(shù)中的哥特式風(fēng)格,電影分類中的僵尸片。在社交網(wǎng)絡(luò)上,模因可以是一個(gè)觀點(diǎn),對(duì)某電視劇的追捧,或者是一個(gè)突然流行起來(lái)的Emoji、流行語(yǔ)。
以往關(guān)于網(wǎng)絡(luò)上的信息傳播研究最多的話題是疾病的傳播,然而模因在社交網(wǎng)絡(luò)上的傳播因其背后機(jī)制的不同,而呈現(xiàn)出不同的規(guī)律。2019年2月在arxiv.org發(fā)布的一篇預(yù)印本論文,為模因傳播創(chuàng)建了數(shù)學(xué)模型,并在豆瓣、微博等數(shù)據(jù)集上驗(yàn)證了模型預(yù)測(cè)準(zhǔn)確性。本文將以這篇論文為背景,為讀者介紹模因傳播背后的規(guī)律。
論文題目:
A model for meme popularity growth in social networking systems based on biological principle and human interest dynamics
論文地址:
https://arxiv.org/abs/1902.00533
1 傳統(tǒng)的疾病傳播模型
圖1:圖示四種疾病傳播模型。
已有的疾病傳播模型可以為我們研究模因的傳播提供靈感與工具。圖1從簡(jiǎn)單到復(fù)雜,一步步展現(xiàn)了如何對(duì)疾病傳播的過(guò)程進(jìn)行建模。圖中的S是易感人群(Susceptible),代表一共有多少人可能會(huì)被感染。其中有β%的人感染(Infected),之后有μ%的人被治愈,治愈者有了抗體,不再感染,這是SIR模型描述的情況。而如果全部的人都能治愈,那就是SIS模型,而如果患病后的人有一定幾率抗體消失,重新進(jìn)入易感人群,那這就屬于SIRS模型,而SEIR模型在SIR模型基礎(chǔ)上加上了暴露(Expose)這一步,用來(lái)描述不是所有易感人群都會(huì)暴露在接觸病毒的環(huán)境中。
在上述的疾病模型下,人群中曾經(jīng)感染過(guò)病毒的人的比例會(huì)呈現(xiàn)如圖2所示的趨勢(shì)。最初是疾病隨機(jī)、小規(guī)模地爆發(fā)和消退,之后有一個(gè)指數(shù)化增長(zhǎng)的階段,之后在SIS模型中,大部人都感染過(guò),例如流感病毒這樣的最終會(huì)康復(fù)的病毒;而在SIR模型中,指數(shù)化增長(zhǎng)后,隨著越來(lái)越多的人獲得抗體,感染病毒的人會(huì)逐漸回到0點(diǎn),例如人類最終通過(guò)疫苗消滅了天花病毒。
圖2:SIS 和 SIR模型感染個(gè)體隨時(shí)間變化示意圖
2 模因的傳播有何不同之處
圖3:模因與基因進(jìn)化傳播的區(qū)別
論文題目:
Evolutionary Dynamics of Cultural Memes and Application to Massive Movie Data
論文地址:
https://arxiv.org/abs/1903.02197?context=physics.soc-ph
圖3來(lái)自今年5月發(fā)表的論文,該文關(guān)注的是模因的進(jìn)化動(dòng)力學(xué)及其在電影風(fēng)格上的應(yīng)用,這里借用過(guò)來(lái)說(shuō)明模因與基因進(jìn)化的三點(diǎn)不同之處:
- 任何一個(gè)模因的“父輩”會(huì)有一個(gè)或者多個(gè),而不是只有兩個(gè);
- 模因的變異不是來(lái)自于罕見(jiàn)的點(diǎn)突變或者僅僅是父輩之間重組,而是持續(xù)的大規(guī)模的改變;
- 模因的傳播可以跨越父輩的中間層,直接從第一代傳播到第三代。
這三點(diǎn)說(shuō)明模因的進(jìn)化,更像是微生物的進(jìn)化,可以有橫向的基因交流,一種菌可以直接從另一種菌那里“借”到有用的基因片段。
由于模因的進(jìn)化更類似微生物,因此對(duì)模因流行程度的建模,也應(yīng)優(yōu)先借鑒已有的對(duì)微生物群落建模。由于關(guān)注考慮的是模因的傳播和流行,因此之后的模型中不涉及模因本身的改變,這里一番解釋,是為了讓不熟悉的模因的讀者能對(duì)這個(gè)概念有一些直觀的理解,模因能復(fù)制,能傳播,也能進(jìn)化。
3 模因傳播過(guò)程中的三個(gè)狀態(tài)
用微生物的進(jìn)化過(guò)程,來(lái)仿生模擬迷因的傳播,從而構(gòu)建起和疾病傳播不同的基礎(chǔ)模型,下面將對(duì)其進(jìn)行詳解。
圖4:細(xì)胞的生活周期與模因的生活周期對(duì)比
上圖是一個(gè)從微生物“傳播”模型到模因傳播模型仿生過(guò)程的示意圖,紅色描述細(xì)菌群落的演化,細(xì)菌分裂為多個(gè)細(xì)胞,之后部分細(xì)胞存活,部分細(xì)胞死去。而對(duì)于模因,例如一則謠言、對(duì)某電視劇的推薦,也是最初由最初一小群人轉(zhuǎn)發(fā),之后部分人被成功傳播,部分人則無(wú)法被該模因影響(exclusion)。
以一個(gè)7個(gè)人的群體為例,圖5和圖6展示了M1、M2、M3、M4這4個(gè)模因是如何在他們之間傳播的。
圖5:模因傳播圖解
圖5b展示的是4個(gè)模因在7個(gè)用戶身上存活生命周期的間軸,a展示的是模因1-4在這個(gè)模擬的時(shí)間段內(nèi)分別影響了哪些用戶。圖b是圖a具體細(xì)節(jié)的描述,其中六邊形是代表用戶傳播模因這一行為。
如圖5c所示,針對(duì)每個(gè)模因,有三種可能性。這個(gè)人要么在下一時(shí)刻以PF的概率傳播這一模因,要么以PW否認(rèn)該模因了,而這兩種狀態(tài)之外剩下的概率里,該人仍舊相信該模因,但是并不傳播她。d圖與b圖都描述了模因的狀態(tài),只不過(guò)是從用戶的角度切換成了模因自身生存的角度。圖d展示了上面4個(gè)模因隨著時(shí)間流逝在7個(gè)用戶心中的總狀態(tài),這張圖可以類比微生物模型中的分裂,生存與死亡。
4 在模因傳播中引入社交網(wǎng)絡(luò)的影響
圖6:模因在社交網(wǎng)絡(luò)上的傳播
上述基于單體模型(Agent-based model)構(gòu)成的只是基礎(chǔ)模型,沒(méi)有考慮社交網(wǎng)絡(luò)中人際互動(dòng)影響,只有進(jìn)一步添加對(duì)網(wǎng)絡(luò)動(dòng)力學(xué)建模,才能構(gòu)建用來(lái)預(yù)測(cè)模因流行程度的混合通用模型。如圖6所示,研究者考慮群體之間相隔影響,提出了模因傳播的3條基本假設(shè):
- 將一個(gè)用戶被一個(gè)模因影響,比如讀到某本書(shū),這個(gè)過(guò)程稱之為激活。這個(gè)人被激活的概率隨著身邊已激活的人的比例呈Sigmoid函數(shù)分布。形象的說(shuō),就是朋友圈最初只有幾個(gè)人追一部劇的時(shí)候,被種草很難,之后隨著比例增加,概率速度提升,等人多了之后,用戶已經(jīng)全部覆蓋,這時(shí)候模因的傳播進(jìn)入了平臺(tái)期。(左圖所示)
- 用戶兩次活躍時(shí)間的間隔,呈冪律分布,也就是對(duì)某位用戶,其在20%時(shí)間段中異常活躍,參與了的傳播或者接收模因行動(dòng)數(shù)占總數(shù)的80%(數(shù)字用來(lái)打比方),而剩下的時(shí)間里,基本不會(huì)參與模因的傳播。
- 用戶在傳播模因時(shí),有一定幾率p傳播之前收到的模因,在1-p的概率下轉(zhuǎn)播舊的模因。
這三條假設(shè)中,最重要的是第一條,該條描述了人際交往對(duì)模因傳播的影響呈非線性的增長(zhǎng)。而Sigmoid函數(shù)是最常用的描述非線性增長(zhǎng)的函數(shù)。在該模型中,用到了sigmoid函數(shù)的變種
公式1:改進(jìn)的Sigmoid函數(shù)
從數(shù)學(xué)上來(lái)看,針對(duì)某模型,特定的參數(shù)B和C分別決定了函數(shù)的陡峭程度,以及在橫軸上偏移的數(shù)值。從模型現(xiàn)實(shí)意義上來(lái)看,可以形象地理解為:B是傳播時(shí)間的“衰減率”,該值越小,模因達(dá)到傳播速度最高點(diǎn)所需的時(shí)間相對(duì)越長(zhǎng)。該數(shù)值越大,模因傳播模式越趨近于爆發(fā)式增長(zhǎng);當(dāng)時(shí)間達(dá)到C點(diǎn)時(shí),模因的傳播速度達(dá)到最快,模因正處于傳播速度的頂峰。C值越大,模因需要越長(zhǎng)的時(shí)間來(lái)醞釀,C值越小,爆點(diǎn)來(lái)得越早。
圖7:模型的建模全過(guò)程示意
5 模因在具體數(shù)據(jù)中的表現(xiàn)形式
在這篇預(yù)印本論文中,用到了3種不同類型的數(shù)據(jù)集,分別是美食推薦網(wǎng)站delicious、豆瓣讀書(shū)、電影和音樂(lè)、以及微博上的轉(zhuǎn)發(fā)數(shù)據(jù)。對(duì)于美食網(wǎng)站,收藏一家餐館算做是傳播模因;對(duì)于豆瓣,對(duì)書(shū)/電影/音樂(lè)評(píng)分算是傳播模因;而微博上的轉(zhuǎn)發(fā)算是模因的傳播。對(duì)于一本書(shū)、一部電影、一張專輯,如果在某個(gè)時(shí)刻后不再被提及,那相當(dāng)于該模因被新的模因覆蓋掉了。
表1:數(shù)據(jù)集的基本性質(zhì)
上表說(shuō)明了使用的數(shù)據(jù)集的大小和特征。對(duì)于不同持續(xù)時(shí)間的數(shù)據(jù)集,研究者為了分析方便,對(duì)其進(jìn)行了歸一化。該數(shù)據(jù)集中最令人意外的就是用戶數(shù):豆瓣電影的用戶數(shù)比讀書(shū)和音樂(lè)少了一個(gè)數(shù)量級(jí),而其模因數(shù)目,也就是包含的電影數(shù)目卻是最多的,并且,電影的記錄數(shù)目也是最多的,這說(shuō)明豆瓣電影用戶更多是重度用戶。而在delicious網(wǎng)站上,用戶數(shù)目比豆瓣用戶數(shù)高了2個(gè)數(shù)量級(jí),網(wǎng)絡(luò)中傳播的模因數(shù)目卻在相近的水平。這說(shuō)明這些數(shù)據(jù)集不僅是內(nèi)容不同,網(wǎng)絡(luò)的結(jié)構(gòu)(例如稀疏程度)也有所不同。
6 從真實(shí)數(shù)據(jù)中預(yù)估模型參數(shù)
有了模型和數(shù)據(jù),接下來(lái)要做的是從真實(shí)數(shù)據(jù)中去擬合模型中的參數(shù)。下表給出了不同數(shù)據(jù)集擬合出的參數(shù)。
表2:模型訓(xùn)練后的參數(shù)
這里美食網(wǎng)站有收藏一家餐館,以及將該餐館移除收藏兩個(gè)操作,因此其對(duì)應(yīng)的B和C有兩個(gè)。先看α與ρ,她們是決定用戶分享頻率和優(yōu)先級(jí)的參數(shù),其中假設(shè)轉(zhuǎn)發(fā)時(shí)間間隔是冪率分布的,α是冪率函數(shù)中的唯一參數(shù),α越大轉(zhuǎn)發(fā)越頻繁,而ρ是人們轉(zhuǎn)發(fā)新消息的概率,ρ越接近于1,人們?cè)絻A向于傳播新信息。
民以食為天。美食網(wǎng)站的用戶、平均兩次活躍之間的間隔是所有網(wǎng)站間最小的。豆瓣電影都是些重度用戶,活躍時(shí)間的間隔次之。而讀書(shū)所需的時(shí)間較長(zhǎng),用戶活躍的時(shí)間間隔也是相對(duì)最大的,這符合預(yù)期。
另一個(gè)有趣的發(fā)現(xiàn)是:豆瓣系的網(wǎng)站,其擬合出的B和C都是相近的,也就是說(shuō),不管是電影、圖書(shū)還是音樂(lè),藝術(shù)文學(xué)作品背后模因的擴(kuò)散方式平均來(lái)講都是以相對(duì)平緩的方式進(jìn)行的。
最讓人意外的是微博和美食網(wǎng)站的擬合出的B都是0.24,意為美食網(wǎng)站和微博上模因的傳播更具爆發(fā)性,美食與短消息更具吸引力,更容易讓人們進(jìn)行傳播。微博是雖然也有部分網(wǎng)紅餐飲成分,但其主流是以?shī)蕵?lè)資訊為代表的實(shí)時(shí)新聞。兩者的引爆點(diǎn)相同,也許這能用進(jìn)化心理學(xué)解釋,人們?cè)u(píng)價(jià)新聞是否值得轉(zhuǎn)發(fā),和評(píng)價(jià)食物的好壞,背后有著相似的動(dòng)力。美食網(wǎng)站有將餐廳移出收藏這個(gè)選項(xiàng),該數(shù)據(jù)擬合的B、C值分別是0.4和0.8也就是反過(guò)來(lái),當(dāng)人們開(kāi)始對(duì)一家餐廳失去興趣的時(shí)候,她會(huì)以更快的速度被拋棄。
從這里引申到社交網(wǎng)絡(luò)中,可以知道,當(dāng)一個(gè)社交網(wǎng)絡(luò)中遇到的50%左右的用戶都在傳播偽科學(xué)、假新聞等無(wú)效信息時(shí),那這個(gè)社交媒體會(huì)開(kāi)始迅速流失用戶,從最早的天涯,到后來(lái)的人人網(wǎng)莫不如此。
7 模型預(yù)測(cè)的結(jié)果及其啟示
圖8中的橫軸是正則化后的時(shí)間,縱軸是某個(gè)模因還有多少流行的潛力。P等于1的時(shí)候,意味著在數(shù)據(jù)集包含的時(shí)間內(nèi),模因的傳播和用戶的流出達(dá)到了平衡。圖中不管是黑色虛線代表的模擬結(jié)果,還是理論推算出的藍(lán)色虛線,按照數(shù)據(jù)擬合出的參數(shù),在對(duì)Pn的預(yù)測(cè)上,幾乎沒(méi)有誤差。這說(shuō)明了該模型包含了對(duì)模因傳播有影響的全部因素,且適用于多種截然不同的網(wǎng)絡(luò)。
下面是Pn的計(jì)算公式,其中的St是某時(shí)刻該模因在多少用戶中“存活”,Wt是多少人接收到,卻沒(méi)有被該模因影響(overwrite),F(xiàn)t是多少人在傳播模因,Pn的分母為最大值時(shí)(逼近1),意味著傳播該模因的人最小(逼近0),即該模因已經(jīng)過(guò)氣了。
公式2:模因流行度與時(shí)間關(guān)系計(jì)算公式
對(duì)比三種不同網(wǎng)絡(luò),對(duì)于模因的傳播的規(guī)律,可以比較異同。不管是什么樣的內(nèi)容,所有的模因都會(huì)過(guò)氣,對(duì)于文藝作品,其傳播是相對(duì)線性的,而在微博上,模因的爆發(fā)則更加突然。
8 對(duì)比疾病傳播模型及總結(jié)
相比疾病的傳播,模因從傳播機(jī)制上就不是非黑即白的,必須要考慮人的行為——同伴壓力(peer pressure)(比如大家都看權(quán)力的游戲,我不看顯得不合群),也需要考慮人際交往的頻率遵照冪律分布。因此不能簡(jiǎn)單的修改某種疾病傳播模型,而需要從微生物群落的繁衍借鑒靈感,同時(shí)在網(wǎng)絡(luò)中引入社交的機(jī)制。社交網(wǎng)絡(luò)由于其內(nèi)容不同,其數(shù)據(jù)看起來(lái)有明顯的差別。但在本文論述的模型下,數(shù)據(jù)的差異可以通過(guò)擬合出的參數(shù)不同加以解釋,后續(xù)再根據(jù)參數(shù)去預(yù)測(cè)模因流行的群體統(tǒng)計(jì)指標(biāo)。不同網(wǎng)絡(luò)可以用相同的模型準(zhǔn)確預(yù)測(cè),意味著在微觀層面,這些網(wǎng)絡(luò)有著相同的生成機(jī)制。雖然無(wú)法具體預(yù)測(cè)一部電影是否會(huì)火,但對(duì)社交網(wǎng)絡(luò)的分類問(wèn)題、網(wǎng)絡(luò)的魯棒性、以及網(wǎng)絡(luò)中模因的管控機(jī)制設(shè)計(jì)有所助益。
作者:郭瑞東
審校:陳曦
編輯:王怡藺


