結(jié)構(gòu)dqe,結(jié)構(gòu)dq
chanong
異構(gòu)網(wǎng)絡(luò)無處不在。人們喜歡從這樣的網(wǎng)絡(luò)中發(fā)現(xiàn)稀有但有意義的物體和模式。無論結(jié)構(gòu)或內(nèi)容相似度如何,相應(yīng)的對象都可以用于數(shù)據(jù)分析。然而,結(jié)構(gòu)和內(nèi)容之間的主要區(qū)別值得更多關(guān)注。在本文中,我們提出了一種稱為“結(jié)構(gòu)-2-內(nèi)容”的異常相關(guān)性檢測方法,該方法在結(jié)構(gòu)級別和內(nèi)容級別逐步發(fā)現(xiàn)異常相關(guān)性。結(jié)構(gòu)2 的內(nèi)容解決了三個重要問題: (1)如何衡量目標(biāo)對象的結(jié)構(gòu)和內(nèi)容相似性?(2)如何確定對象的代表性特征?(3)添加新數(shù)據(jù)或刪除舊數(shù)據(jù)?如何。為了應(yīng)對這些挑戰(zhàn),結(jié)構(gòu)2 內(nèi)容應(yīng)用了四種主要技術(shù):(1)使用兩個矩陣分別保留結(jié)構(gòu)和內(nèi)容相似性;(2)使用三元組;表示對象之間的接近程度;(3)將鏡像步驟和迭代過程獲得top-K異常值相關(guān)性;(4)僅更新NG 3元組,而不是從頭開始訓(xùn)練所有數(shù)據(jù)。它可以幫助您逐步插入或刪除數(shù)據(jù),而無需使用大量實(shí)驗(yàn)表明,本文提出的方法對于檢測異常相關(guān)性具有良好的效果。關(guān)鍵詞:離群值相關(guān)性、異構(gòu)網(wǎng)絡(luò)、結(jié)構(gòu)級別、內(nèi)容級別、相似性。
1.簡介:在分析異構(gòu)信息網(wǎng)絡(luò)中的多類型對象和多類型關(guān)系時,識別罕見的、有趣的和顯著的對象、模式或子圖至少比理解它們要好。
通訊作者. 1013
通用數(shù)據(jù)分布或模型。作為數(shù)據(jù)挖掘領(lǐng)域的一個重要領(lǐng)域,異常值檢測可用于提取網(wǎng)絡(luò)中與其他方法顯著不同的對象、模式或子圖。對于由多個節(jié)點(diǎn)和邊組成的異構(gòu)網(wǎng)絡(luò),人們提出了許多方法來識別異;蚩梢傻膯蝹頂點(diǎn)和子圖上的頂點(diǎn)[1-4]。例如,在書目網(wǎng)絡(luò)中,如果作者的出版物與其研究領(lǐng)域無關(guān),則他可能是獨(dú)立的局外人。例如,考慮氣候研究中心子網(wǎng)中的異常值:如果Nomad 浮標(biāo)的溫度下降超過10 度,它可能會發(fā)生故障或經(jīng)歷波濤洶涌的海面。然而,如果多個游牧浮標(biāo)在短時間內(nèi)在不同地點(diǎn)表現(xiàn)出相同的現(xiàn)象,那就值得懷疑了。這意味著這些地區(qū)正在發(fā)生極端天氣。
在本文中,我們提出了一種稱為“結(jié)構(gòu)2 內(nèi)容”的增量異常相關(guān)性檢測方法。該方法的主要思想是分別計(jì)算目標(biāo)對象在結(jié)構(gòu)和內(nèi)容層面的相似度。測量結(jié)構(gòu)相似性和內(nèi)容相似性之間的差異,并獲得異常相關(guān)性。三元組用于表示兩個對象之間的關(guān)系。該對象可以是目標(biāo)對象或表示目標(biāo)對象的特征。兩個物體之間的重量是它們之間的接近度。我們還提出了一個鏡像步驟來獲得兩個對象之間的間接EECT。此外,由于參數(shù)加載方法可能會導(dǎo)致可用性問題,因此我們提出了一個稱為覆蓋率的概念,以在不使用太多參數(shù)的情況下獲得足夠的特征來表示目標(biāo)對象。最后,我們對結(jié)構(gòu)和內(nèi)容水平之間異常相關(guān)性的差異進(jìn)行了排名。還顯示了插入新數(shù)據(jù)和刪除舊數(shù)據(jù)時的增量過程。此過程僅更新一部分?jǐn)?shù)據(jù),而不是從頭開始訓(xùn)練所有數(shù)據(jù)。我們用Aminer 和Yahoo! 做了一些實(shí)驗(yàn)。結(jié)構(gòu)2 電影用于驗(yàn)證內(nèi)容模型的E 有效性。實(shí)驗(yàn)結(jié)果表明,結(jié)構(gòu)內(nèi)容可以有效發(fā)現(xiàn)異常相關(guān)性。
在異構(gòu)網(wǎng)絡(luò)中,不僅識別單個異常值,而且檢測異常值之間的相關(guān)性也非常重要。所有對象在結(jié)構(gòu)或內(nèi)容上都可能是正常的。然而,檢測單個異常值可能會忽略對象之間的相關(guān)性。從不同的角度來看,例如在結(jié)構(gòu)和內(nèi)容層面上,它們的相似之處也可能有很大不同。此外,異構(gòu)網(wǎng)絡(luò)中異常值的相關(guān)性也不同于同質(zhì)網(wǎng)絡(luò)中異常值的相關(guān)性。在異構(gòu)網(wǎng)絡(luò)中,與異常相關(guān)的兩個對象可能屬于同一類型,但在整個計(jì)算過程中必須考慮多類型對象和多類型關(guān)系。然而,在同構(gòu)網(wǎng)絡(luò)中,具有異常相關(guān)性的兩個對象不具有多類型關(guān)系,并且可能僅基于統(tǒng)計(jì)數(shù)據(jù)及其值而相關(guān)。
本文的貢獻(xiàn)可總結(jié)如下。
(1)詳細(xì)研究異構(gòu)網(wǎng)絡(luò)的結(jié)構(gòu)和內(nèi)容差異,提出異構(gòu)網(wǎng)絡(luò)中異常相關(guān)性檢測的漸進(jìn)方法。
(2) 三元組用于表示多種類型的對象及其對應(yīng)關(guān)系。
(3)結(jié)合鏡像步驟和迭代計(jì)算過程以獲得目標(biāo)對象在內(nèi)容級別的特征表示。
(4) 插入和刪除過程逐步展示了如何獲得異常關(guān)聯(lián)。
(5)在兩個真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了該方法的有效性。
本文的其余部分組織如下。相關(guān)工作將在第二節(jié)中討論。 2. 第3 節(jié)介紹本文使用的定義和概念。我們提出的結(jié)構(gòu)內(nèi)容模型的總體框架也在第2 節(jié)中描述。三。第4 節(jié)描述了如何使用三元組和鏡像步驟來測量結(jié)構(gòu)級別的相似性。第5 節(jié)描述了如何使用三元組和迭代過程來測量內(nèi)容級別的相似性。第6 節(jié)描述了如何識別離群值相關(guān)性以及如何插入新數(shù)據(jù)和刪除舊數(shù)據(jù)。我們進(jìn)行了多次綜合實(shí)驗(yàn),以在幾秒鐘內(nèi)評估所提出方法的效率和有效性。 7. 提供實(shí)驗(yàn)設(shè)置、性能指標(biāo)、數(shù)據(jù)集和結(jié)果。第8 節(jié)得出我們的結(jié)論。第9 節(jié)描述了未來的工作。
2.相關(guān)工作異常值檢測方法已經(jīng)被研究了很長時間。大多數(shù)傳統(tǒng)方法是基于統(tǒng)計(jì)的[1, 5]、基于鄰近性的[6, 7]、基于聚類的[8-10]、基于分類的[11, 12]和異常值收集[13]。高等人[14]使用了一種新的目標(biāo)函數(shù),使用標(biāo)記和未標(biāo)記的數(shù)據(jù)進(jìn)行半監(jiān)督異常檢測。 Rasheed和Alhajj[15]提出了一種基于時間序列周期性的sux三叉樹算法的離群模式檢測框架。處理的對象屬于同一類型。因此,他們提出的方法只能用于同質(zhì)信息網(wǎng)絡(luò)。
近年來,隨著異構(gòu)網(wǎng)絡(luò)的出現(xiàn),整個網(wǎng)絡(luò)中對象的類型和關(guān)系呈現(xiàn)多樣化。最初針對同構(gòu)網(wǎng)絡(luò)的方法不適用于異構(gòu)網(wǎng)絡(luò)。異構(gòu)網(wǎng)絡(luò)的離群點(diǎn)檢測方法有兩種:單離群點(diǎn)和子圖離群點(diǎn)。 Gupta 等人[16]提出了一個新概念,稱為社區(qū)分布異常(cdoutliers)。它使用非負(fù)矩陣分解來檢測社區(qū)分布不遵循其他常見社區(qū)分布模式的對象。他們還在異構(gòu)網(wǎng)絡(luò)中以單個頂點(diǎn)的形式提取異常值。 Zhuang等人[17]提出了一種基于查詢的異構(gòu)網(wǎng)絡(luò)子網(wǎng)異常檢測方法。他們定義了子網(wǎng)相似性的概念,并根據(jù)異常值對子網(wǎng)進(jìn)行了排名。異常值由子圖表示。
此外,許多研究人員還深入研究了一些增量異常檢測方法,以降低時間復(fù)雜度和空間復(fù)雜度。 Pokrajac 等人[18]開發(fā)了一種增量異常檢測方法。他們提出了一個稱為基于連接的異常因子(cof) 的概念,并展示了如何在每次插入或刪除時更新cof。 Ju和Li[19]提出了一種增量方法IODM(增量異常值檢測模型)。他們挖掘數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則并增量更新關(guān)聯(lián)規(guī)則倉庫(ARW)以檢測異常交易。增量過程只更新部分?jǐn)?shù)據(jù),而不是從頭開始訓(xùn)練所有數(shù)據(jù),可以節(jié)省大量時間和空間。
三。問題定義我們從一些正式的問題定義開始,并提出了一些新概念。接下來,我們概述結(jié)構(gòu)2內(nèi)容的總體框架。本章介紹了主要方法和完整的理論。 4-6.為了陳述一個完整的理論,我們需要以下概念:
定義1(異構(gòu)信息網(wǎng)絡(luò)[20])。假設(shè)給定一個有向圖G=_V;E;'A;R_。 V 是節(jié)點(diǎn)集,E 是邊集。和是兩個實(shí)體類型映射函數(shù)。 _v_2 a 表示每個實(shí)體v 對應(yīng)a 中的特定實(shí)體類型。 e_2 r表示每條邊e對應(yīng)屬于r的某種關(guān)系。如果節(jié)點(diǎn)類型為jaj1或邊類型為jrj1,則認(rèn)為是異構(gòu)信息網(wǎng)絡(luò),否則認(rèn)為是同構(gòu)信息網(wǎng)絡(luò)。
在現(xiàn)實(shí)世界中,存在著許多異構(gòu)的信息網(wǎng)絡(luò)實(shí)例。例如,書目網(wǎng)絡(luò)具有四種類型的節(jié)點(diǎn):文章、作者、術(shù)語和位置,以及表示出版物到出版物、寫作到寫作和引用到引用關(guān)系的多個邊。電影網(wǎng)絡(luò)有四種類型的節(jié)點(diǎn):電影、演員、流派和語言,以及代表它們之間關(guān)系的邊。
定義2(前一個節(jié)點(diǎn)和下一個節(jié)點(diǎn))。給定一個無向圖g=_v;e_。 A;B 2 V.A 和B 通過G 連接,得到_A;B_2 E。節(jié)點(diǎn)A 被訪問,但節(jié)點(diǎn)B 未被訪問。然后我們認(rèn)為a是b的前驅(qū)(a可以用^b_表示,b稱為a(b可以用^)表示)。
定義3(異常相關(guān))。假設(shè)異構(gòu)網(wǎng)絡(luò)有n個對象作為輸入,結(jié)構(gòu)層和內(nèi)容層中任意兩個對象的相似度分別用si,j和ci,j表示。計(jì)算si;j 和ci;j 之間的差。找出si;j 和ci;j 之間差異的前k 個值。與前k 個差異相對應(yīng)的對象相關(guān)性_i;j_ 被視為異常相關(guān)性。
與同構(gòu)網(wǎng)絡(luò)中的異常相關(guān)性檢測相比,異構(gòu)網(wǎng)絡(luò)中的異常相關(guān)性檢測是不同的。在同構(gòu)網(wǎng)絡(luò)中,離群值相關(guān)性只能根據(jù)兩個對象之間的統(tǒng)計(jì)來獲得。離群值相關(guān)性之間沒有結(jié)構(gòu)或內(nèi)容信息。然而,在異構(gòu)網(wǎng)絡(luò)中,多種類型的對象和多種類型的關(guān)系的存在使得檢測異常相關(guān)性變得更加復(fù)雜。
定義4(啟用的功能)。如果一個特征X被賦予了一個詞項(xiàng)權(quán)重值,則稱其為有效特征,否則稱其為無效特征。
定義5(范圍)。有效特征與特征總數(shù)的比值定義為覆蓋率,表示為cr。
圖1 顯示了我們建議的結(jié)構(gòu)2 內(nèi)容框架。我們從兩個方面計(jì)算異構(gòu)信息網(wǎng)絡(luò)中對象之間的相似度。圖1。結(jié)構(gòu)2 內(nèi)容模型的總體框架。
看法。第一個是對象之間結(jié)構(gòu)層面的相似性,如圖1 左側(cè)所示。第二個是對象之間內(nèi)容級別的相似性,如圖1 右側(cè)所示。接下來,我們利用矩陣s 和c 之間的較大差異來獲得前k 個離群值相關(guān)性。
4.結(jié)構(gòu)層組件在本節(jié)中,我們從結(jié)構(gòu)角度計(jì)算兩個對象之間的相似度。此外,Structure2content 模型的結(jié)構(gòu)級組件是增量過程。當(dāng)新數(shù)據(jù)出現(xiàn)時,無需從頭開始計(jì)算,大大降低了時間復(fù)雜度。在幾秒鐘內(nèi)查看組合步驟。分別為4.1和鏡像步驟4.2。三元組用于計(jì)算異構(gòu)網(wǎng)絡(luò)中任意兩個對象之間的結(jié)構(gòu)關(guān)系。
4.1. 組合程序
給定一個由多種類型的對象及其對應(yīng)關(guān)系組成的異構(gòu)網(wǎng)絡(luò)G。在異常值檢測領(lǐng)域,人們從網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)內(nèi)容的角度進(jìn)行了異常值檢測的研究。然而,很少有研究從網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容信息的差異角度檢測異常相關(guān)性。此外,當(dāng)插入新數(shù)據(jù)或刪除舊數(shù)據(jù)時,傳統(tǒng)的異常值檢測方法通常從頭開始計(jì)算對象的異常值。因此,我們首先提出一種增量異常相關(guān)檢測方法來計(jì)算結(jié)構(gòu)級別的對象相似度。
眾所周知,異構(gòu)網(wǎng)絡(luò)包含許多不同類型的對象。某些類型的對象被用作計(jì)算接近度的目標(biāo)。目標(biāo)對象以多條記錄的形式表示。例如,在書目網(wǎng)絡(luò)中,作者可以被視為目標(biāo)對象。這些記錄以共同作者的身份出現(xiàn)。電影網(wǎng)絡(luò)可能會將演員視為目標(biāo)。這些唱片都有聯(lián)合主演。結(jié)構(gòu)層的最終相似度存儲在矩陣S中,如下所示。 2s13 2s12;11 s12;22 s21;nn 3SSNN=664S.27775=4…;1…;2 SN…;N 56S.666SS777
Serial Number; Serial Number; 為了逐步獲得異常值相關(guān)性,異構(gòu)網(wǎng)絡(luò)中的感興趣對象以3元組的形式存儲,用_oi; eij; oj_表示。 oi和oj是目標(biāo)對象,eij表示oi和oj之間的接近程度。
表格1。已記錄十個案例,其中包括幾位作者。
ID
共同作者ID
ID
共同作者ID
磷1
A1;A2;A3;A4
林6 A2;A8;A9
磷2
A1;A2;A4;A5
磷7
a2;a4;a5;a10
磷3
A4;A5;A6;A7
林8 A3; A6; A11
磷4
A1;A2;A4;A6
磷9
A1;A2;A3;A4
磷5
A2;A8
磷10
A1;A3;A6;A7
表2. 從表1 生成的所有三個元組。
ID
p1 p2 p3 p4 p5 p6 p7 p8 p9 p10
三項(xiàng)式
f1,1,2g f1,1,2g f4,1,5g f1,1,2g f2,1,8g f2,1,8g f2,1,4g f3,1,6g f1,1,2g f1,1,3g f1,1,3g f1,1,4g f4,1,6g f1,1,4g f2,1,9g f2,1,5g f3,1,11g f1,1,3g f1,1,6g f1,1,4g f1,1,5g f4,1,7g f1,1,6g f8,1,9g f2,1,10g f6,1,11g f1,1,4g f1,1,7g f2,1,3g f2,1,4g f5,1,6g f2,1,4g f4,1,5g f2,1,3g f3,1,6G F 2,1,4g F 2,1,5g F 5,1,7g F 2,1,6g F 4,1,10g F 2,1,4g F 3,1,7g
3,1,4 4,1,5 6,1,7 4,1,6 5,1,10 3,1,4 6,1,7
F G F G F G F G F G F G F G F G G F G
結(jié)構(gòu)層oi和oj之間的相似度包括連接步驟和鏡像步驟兩部分,并且使用式(1)計(jì)算如下:
soi;oj=sdoi;oj_smoi;oj;_1_
這里,sdo;是oi和oj之間的直接類比。例如,表1有10條記錄,代表10個文章ID和對應(yīng)的作者ID。如表2所示,我們使用三元組來表示兩位作者之間的關(guān)系。根據(jù)直接合著關(guān)系,將三個元組合并(如表3所示)并I oJ
使用等式(2)計(jì)算sdo。我
X iri;J
sdoi;oj=sdoj;oi=n;_2_跟我來
其中n 是數(shù)據(jù)集中包含oi 或oj 的記錄總數(shù)。式(2)的條件是i必須小于j,僅僅考慮直接相似性是不夠的。用于計(jì)算增量過程的間接相似性和鏡像步驟將在下一節(jié)中討論。
4.2. 鏡像步驟
在本節(jié)中,我們提出了一種稱為鏡像步驟的方法,該方法計(jì)算兩個對象之間的間接相似度并逐步檢索異常值。當(dāng)我們得到表3中的三個元組后,我們將這三個元組鏡像到原始元組的另一側(cè)。
表3. 合并后的所有3 元組。
f1,0.25,2g f1,0.5,3g f1,0.57,4g f1,0.14,5g f1,0.29,6g f1,0.17,7g
F2、0.22、3G
F 2,0.625,4g F 2,0.25,5g F 2,0.1,6g F 2,0.29,8g F 2,0.14,9g F 2,0.14,10g
f3,0.25,4g f4,0.5,5g f5,0.17,6g f3,0.33,6g f4,0.29,6g f5,0.25,7g
f3,0.2,7g f4,0.14,7g f5,0.33,10g f3,0.25,11g f4,0.17,10g
F6,0.5,7g F8,0.5,9g F6,0.25,11g
表4. 鏡像表3 中的3 元組。
F2,0.25,1g f3,0.5,1g f4,0.57,1g f5,0.14,1g f6,0.29,1g f7,0.17,1g
F3.0.22,2克
f4,0.625,2g f5,0.25,2g f6,0.1,2g f8,0.29,2g f9,0.14,2g
10,0.14,2
f4,0.25,3g f5,0.5,4g f6,0.17,5g f6,0,33,3g f6,0.29,4g f7,0.25,5g
f7,0.2,3g f7,0.14,4g f10,0.33,5g f11,0.25,3g f10,0.17,4g
F7,0.5,6g F9,0.5,8g F11,0.25,6g
F/G型
3元組。例如,表3中的3元組f1,0.25,2g變?yōu)楸?中的3元組f1,0.25,1g。測量OA 和O 的緊密度并僅提取包含作者的記錄會導(dǎo)致信息過多丟失,因?yàn)楹雎粤碎g接協(xié)作。例如,A 和A 與A 合作,A 和A 合作發(fā)表多篇論文,A 和A 與A 合作發(fā)表一篇論文。當(dāng)然,A與A之間的親密度高于A與A之間的親密度。我們使用方程(3)來計(jì)算鏡像步驟中兩個對象之間的間接相似度。 3 63 6 3 6 1247 113 11 63 6 3 11T
smoi;oj=smoj;oi=xei;kek;j;_3_K 1
這里,t是具有間接合著者關(guān)系的作者數(shù)量。這是smo 中三元組數(shù)量的一半。例如,使用表3和表4中的三個元組計(jì)算OA和OIN的結(jié)構(gòu)水平之間的相似度如下。此外,算法1還描述了一種計(jì)算結(jié)構(gòu)層中對象之間相關(guān)性的算法。我是J3 6
SO3;O6=SDO3;O6_Smo3;O6
0:33_e3;1e1;6_e3;2e2;6_e3;4e4;6_e3;7e7;6_e3;11e11:6_
0:33_0:5 0:29_0:22 0:1_0:25 0:29_0:2 0:5_0:25 0:25_0:732:
0:732:
5. 內(nèi)容級組件
僅僅考慮異構(gòu)網(wǎng)絡(luò)上的鏈路結(jié)構(gòu)是不準(zhǔn)確和不全面的。在本節(jié)中,我們提出了一種迭代方法,該方法結(jié)合三元組來計(jì)算內(nèi)容層中對象之間的接近度。 ContentLevel組件使用其他類型的對象來表示目標(biāo)對象的特征。例如,在書目網(wǎng)絡(luò)中,關(guān)鍵字可以被視為作者的特征。在電影網(wǎng)絡(luò)中,類型可以被視為演員的特征。因此,內(nèi)容層面上的對象之間的緊密度存儲在矩陣C中如下: CNN=62646CCC…N1277735=62664CC12…;111 CC21…;222 CCN12…;NNN 57377;C
中國中國;
其中,ci;j表示對象oi和oj之間的內(nèi)容級別相似度。以下是迭代計(jì)算ci;j 的方法。與矩陣S中的si;j類似,特征及其對應(yīng)關(guān)系由三個元組表示(表示為_ti;rij;tj_,如表5所示)。在書目網(wǎng)絡(luò)中,ti和tj代表目標(biāo)對象。特征對象rij 是ti 和tj 之間的接近度。表5 列出了所有三個元組。還需要鏡像步驟來獲得任意兩者之間的最終接近度。
表5.10 論文ID 和相應(yīng)關(guān)鍵字的示例。
ID
關(guān)鍵詞
ID
關(guān)鍵詞
磷1
A;B;C;H
磷6
G;I;K;L
磷2
C;D;E
磷7
C;F;G;我
磷3
A;C;F;G
磷8
C;D;E;I;J
磷4
C;D;I;J
磷9
A;C;D
磷5
G;我
磷10
A;B;D;E
表6. 從表5 生成的所有三個元組。
ID
p1 p2 p3 p4 p5 p6 p7 p8 p9 p10
三項(xiàng)式
FA, 1, BG-FC, 1, DG-FA, 1, CG-FC, 1, DG-FA, 1, GG-FG, 1, IG-FC, 1, FG-FC, 1, DG-FA, 1,CG-FA,1,BG-FA,1,CG-FC,1,EG-FA,1,FG-FC,1,IG-FA,1,IG-FA,1,BG-FC,1, GG-FC,1,EG-FA,1,DG-FA,1,CG-FA,1,CG-FC,1,LG-FC,1,1,1,ig-FC,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ig-fc,1,dg-fa,1,eg-fb,1 ,cg-fc,1,fg-fd,1,ig-fi,1,kg-ff,1,ggfc,1,jg fb,1,dg
FB,1,汞
fc,1,gg fd,1,jg
FI,1,LG FF,1,IG FD,1,EG
FB,1,示例
FC,1,汞
FF、1、GG FI、1、JG
fk,1,lg fg,1,ig fd,1,ig fd,1,jg fe,1,ig fe,1jg fi,1,jg
FD,1,示例
特征。假設(shè)作者ap 發(fā)表論文p1 和p2,并使用式(4)計(jì)算與ap 直接相關(guān)的關(guān)鍵詞q 的權(quán)重項(xiàng)。
WPQ=N_P_D_PQ_Log_N_S;_4_K 琳琳Q1
這里,n_p_是作者ap發(fā)表的論文數(shù)量。 d_pq_是AP發(fā)表的論文中出現(xiàn)的關(guān)鍵詞的Q個數(shù)。因此,AP發(fā)表的文章中出現(xiàn)的關(guān)鍵詞越多,這些關(guān)鍵詞在AP的詞權(quán)重中體現(xiàn)得越清晰。 k_p_是作者ap發(fā)布的關(guān)鍵詞總數(shù)。 ns 是網(wǎng)絡(luò)中的論文總數(shù)。 p_q_ 是包含關(guān)鍵字p_q_ 的論文數(shù)量。也就是說,如果某個關(guān)鍵詞在一個集合中的多篇論文中頻繁使用,則不認(rèn)為它特別代表該類型的論文。例如,“關(guān)鍵字\數(shù)據(jù)挖掘”是一個廣泛的研究領(lǐng)域。如果作者發(fā)表了包含此關(guān)鍵字的論文,您可能不知道該論文涵蓋的研究領(lǐng)域。隨著關(guān)鍵字變得更加具體,例如時間異常檢測和異常相關(guān)性檢測,可以用術(shù)語權(quán)重更具體地表達(dá)特征。因此,WPC=2log6 2 710_=0:067:1
使用術(shù)語權(quán)重值指定的特征稱為有效特征。與目標(biāo)對象直接相關(guān)的功能將添加到啟用的功能集中。將直接相關(guān)的屬性應(yīng)用于目標(biāo)對象是不夠的。與目標(biāo)對象間接相關(guān)的特征也應(yīng)該使用術(shù)語權(quán)重來分配。直接獲得與作者相關(guān)的關(guān)鍵詞的術(shù)語權(quán)重后,我們找到有效特征的后代節(jié)點(diǎn),并為無效特征分配術(shù)語權(quán)重值。然后,將無效特征添加到有效特征集中,直到CR達(dá)到80%。一旦CR達(dá)到80%,我們相信這些特征就可以用于內(nèi)容級別的相似度計(jì)算。由于圖可能包含圓形,因此我們可以使用輔助數(shù)組來標(biāo)記每個頂點(diǎn),并防止圖遍歷算法出現(xiàn)在循環(huán)內(nèi)部。迭代計(jì)算的過程如下。
wpq=wp^q rq^q;_5_
這里,rq^q 是節(jié)點(diǎn)q 與其前一個節(jié)點(diǎn)^q 之間的接近度,如上所述。 wp^q 是目標(biāo)節(jié)點(diǎn)ap 的^q 項(xiàng)的權(quán)重。如果所有目標(biāo)對象的覆蓋率滿足要求,則可以使用余弦相似度計(jì)算內(nèi)容級別的相似度,并將其存儲在上面的矩陣C中。算法2描述了計(jì)算內(nèi)容級相關(guān)性的算法如下。
6. 用于檢測離群值相關(guān)性的結(jié)構(gòu)2內(nèi)容模型
在本節(jié)中,我們介紹如何使用Structure2content 模型檢測異常關(guān)聯(lián)(第6.1 節(jié))。第6.2 節(jié)和第6.3 節(jié)描述了當(dāng)新數(shù)據(jù)插入數(shù)據(jù)集中時如何更新現(xiàn)有數(shù)據(jù),以及如何丟棄一些舊數(shù)據(jù)。
6.1. 異常相關(guān)檢測流程
根據(jù)第2節(jié)的描述。結(jié)構(gòu)和內(nèi)容級別的相似性分別存儲在矩陣S 和C 中。接下來計(jì)算S和C的Frobenius范數(shù),即JJSJJF和JJCJJF。 jjjf 是矩陣的Frobenius 范數(shù):jj jjf pms_。在S和C相同數(shù)量級的情況下,結(jié)構(gòu)層面的相似性和內(nèi)容層面的相似性是等價的。因此,S 和C 的Frobenius 規(guī)范是相同的。首先,將jjsjjf 除以jjjjf 即可得到參數(shù)。接下來,將矩陣C 的每個元素乘以參數(shù),使得jjsjjf 與jjjjf 相同。矩陣mos 用于存儲s c 的絕對值,其_i;j_ 項(xiàng)是每個有序相關(guān)性_i;j_ 的s i;j c i;j 的絕對值。每個對象之間的相關(guān)性差異被存儲在MOS中,可以找到兩個對象在結(jié)構(gòu)層面和內(nèi)容層面上的最大差異。 mos的top-k值意味著兩個目標(biāo)對象的結(jié)構(gòu)和內(nèi)容之間存在最大差異。在整個異構(gòu)網(wǎng)絡(luò)中,相應(yīng)對象的相關(guān)性被視為離群相關(guān)性。 n2Mn1=2
6.2. 插入
結(jié)構(gòu)2 在內(nèi)容模型插入過程中,在將一組新記錄插入到原始數(shù)據(jù)集中后,必須同時更新矩陣S和C。假設(shè)要插入一組包含多類型對象和對應(yīng)關(guān)系的記錄,并且插入的目標(biāo)對象也用三元組表示。整個插入過程包括兩個部分:(1)插入新的對象相關(guān)性,(2)更新現(xiàn)有的結(jié)構(gòu)級和內(nèi)容級相似性。插入新對象關(guān)聯(lián)時的計(jì)算過程如上所述。如果插入的對象關(guān)聯(lián)已存在于原始數(shù)據(jù)集中,我們首先使用新的對象關(guān)聯(lián)來計(jì)算結(jié)構(gòu)級別的相似度。插入的目標(biāo)對象由三元組表示,從而產(chǎn)生所有對象依賴關(guān)系的最終表示。增量部分
INCO;使用公式(1)計(jì)算。例如,插入的記錄為fa;a;ag。新記錄的對象依賴關(guān)系為fa;ag、fa;ag、fa;ag。 a和a之間的直接相似度(用s incdo;_表示)為1=1/40:143。包括aa、ais在內(nèi)共有7條記錄。白熾燈的e輸入為1=7=0:143。使用鏡像步驟的間接相似性(表示為s i oJ1361336163 6 i oJ7 3 6 31 16)
incmo;_ 是e inc 乘以e inc,等于1=1/4 0:02。在這種情況下,增量部分s inco; 等于s incdo; 加上s incmo;最終結(jié)構(gòu)層面的相似度為i oJ31 1649 3o6 3o6 3o6。
incoplus 即=0:732_0:143_0:02=0:877.3o6 3o63o6
6.3. 刪除
在實(shí)際應(yīng)用中,除了插入新記錄外,還需要刪除一些舊的數(shù)據(jù)對象。刪除這些舊記錄時,必須消除合并和鏡像步驟引入的相似性。例如,刪除表1中的一條記錄(如p)。我們不需要重新計(jì)算數(shù)據(jù)集中的所有數(shù)據(jù),而是需要刪除表2 的第三列并更新包含a;a;a a 和a a 的所有三個元組。類似地,在計(jì)算內(nèi)容層面的相似度時,特征之間的相似度的計(jì)算方式與上述相同?梢缘孬@得目標(biāo)對象之間的相似度。 3456 7
7.實(shí)驗(yàn)與結(jié)果
眾所周知,由于缺乏基本事實(shí),異常值評估一直是一個難題。在本節(jié)中,我們定義一個稱為pout 的異常值度量來評估異構(gòu)網(wǎng)絡(luò)中的異常值相關(guān)性(第7.1 節(jié))。精確率和召回率也用作性能指標(biāo)(第7.1 節(jié))。接下來,使用兩個數(shù)據(jù)集aminer 和yahoo!this movie 來驗(yàn)證所提出的結(jié)構(gòu)2(第7.2 節(jié))的內(nèi)容有效性。在本文的其余部分中,我們進(jìn)行了一些實(shí)驗(yàn),以驗(yàn)證在異構(gòu)網(wǎng)絡(luò)中挖掘離群值相關(guān)性(秒)時,計(jì)算結(jié)構(gòu)級別和內(nèi)容級別之間的顯著區(qū)別是否成立。 7.3)。
7.1. 績效指標(biāo)
為了測試我們提出的異常相關(guān)檢測方法的質(zhì)量,設(shè)計(jì)了一種新的性能指標(biāo),即pout。 pout 可以測量錯誤標(biāo)記或丟失的對象關(guān)聯(lián)的數(shù)量。 “標(biāo)記為錯誤”表示該對象的依賴關(guān)系正常
數(shù)據(jù),但標(biāo)記為異常相關(guān)性。\“缺少”意味著對象相關(guān)性應(yīng)該是離群相關(guān),但它不存在于Top-K離群相關(guān)集中。錯誤標(biāo)記的離群值相關(guān)性的數(shù)量用w表示。離群值檢測過程中丟失的離群值相關(guān)性的數(shù)量用m表示。outcorr是數(shù)據(jù)集中手動注釋的總離群值相關(guān)性。相應(yīng)地,我們使用等式(6)計(jì)算出:pout?jw_m j 100%:_6_ 2 奧科爾 與另一種流行的評估度量(稱為準(zhǔn)確性)相反,pout使用了兩種相反的情況:真-負(fù)和假-正,來測試在檢測過程中是否識別了所有可能的異常值相關(guān)性。另外兩個常見的指標(biāo),精度和召回,也適用于重新評估我們提出的檢測模型的可用性[21]。異常值相關(guān)性檢測的精度是被指定為Top-K異常值相關(guān)性的對象相關(guān)性的分?jǐn)?shù),它衡量了拒絕正常對象相關(guān)性的效果。回憶是由手動注釋數(shù)據(jù)分配的對象相關(guān)性的分?jǐn)?shù),它測量了在所有異常相關(guān)性結(jié)束時的表現(xiàn)。因此,精度和召回使用公式計(jì)算。(7)和(8)如下:精度為1/4 J J J WJ 100%;_7_科爾德科爾德科爾德 召回1/4 J J WJ 100%8_奧科爾 其中corrd是Top-K離群值相關(guān)性中的一組對象相關(guān)性。outcorr是數(shù)據(jù)集中手動注釋的總離群值相關(guān)性。f-measure[22]作為精度和召回的調(diào)和平均值,也用于測量我們方法的性能。用式(9)計(jì)算: F測度γ2_精度_召回;γ9γ1 精確召回 其中是重新考慮精確性和召回的相對重要性的權(quán)重。顯然,如果大于1,那么召回值比精度值更重要。在本文中,被賦予一個常數(shù)1。 7.2. 數(shù)據(jù)集集合 我們使用兩個真實(shí)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):Aminer[23]和Yahoo!電影[24]。 氨基。我們從aminer生成數(shù)據(jù),aminer是一個書目異構(gòu)信息網(wǎng)絡(luò)。它主要由三部分組成,分別是阿明的作者、阿明的論文作者和阿明的合著者。它擁有1712433位作者和2092356篇論文,涵蓋計(jì)算機(jī)科學(xué)的不同領(lǐng)域。有四種類型的節(jié)點(diǎn):論文、作者、地點(diǎn)和術(shù)語,以及構(gòu)建整個異構(gòu)信息網(wǎng)絡(luò)的幾種邊緣。為了更準(zhǔn)確地檢測異常值,對原始數(shù)據(jù)集進(jìn)行了補(bǔ)充。使用爬蟲[25]提取每篇論文的關(guān)鍵字(用k表示),并將其添加到aminer-paper.txt中每個記錄的末尾。在每個數(shù)據(jù)集中有100個異常值關(guān)聯(lián)被手動注釋。 雅虎!電影。雅虎!電影作為分級和分類數(shù)據(jù)集的一部分,可以應(yīng)用于異構(gòu)信息網(wǎng)絡(luò)中。這個數(shù)據(jù)集包括六個方面的信息,包括電影、演員、電影分級等。多類型頂點(diǎn)及其之間的多類型關(guān)系可用于分類、聚類或檢測異常值。評級信息可用于預(yù)測或推薦系統(tǒng)。我們選擇部分?jǐn)?shù)據(jù),包括` lm標(biāo)題、演員和類型進(jìn)行實(shí)驗(yàn),并添加100個對象相關(guān)性作為異常相關(guān)性。 7.3. 結(jié)果 在本節(jié)中,我們進(jìn)行了實(shí)驗(yàn),以檢驗(yàn)我們提出的結(jié)構(gòu)內(nèi)容的有效性和效率。我們進(jìn)行了第一次實(shí)驗(yàn),以證明我們提出的方法的性能。我們提取數(shù)據(jù)集中不同數(shù)量的對象來觀察pout、precision、recall和f-measure。圖2和圖3顯示了隨著對象數(shù)量的增加,兩個數(shù)據(jù)集上的結(jié)果。由于我們在圖2中選擇了前100個值和相應(yīng)的對象相關(guān)性作為離群值相關(guān)性,因此jcor rdj在這種情況下等于joutcorrj,這使得精度與 (a)(b) 圖2。aminer和yahoo!上結(jié)構(gòu)2內(nèi)容的pout和f-measure!電影。(選擇前100個對象相關(guān)性作為離群值相關(guān)性)。 (a)(b) 圖3。Aminer和Yahoo!上結(jié)構(gòu)2內(nèi)容的pout、precision、recall和f-measure!電影。(選擇前50個對象相關(guān)性作為離群值相關(guān)性)。 回憶。另外,pout與精度之和為1。因此,我們只在圖2中提供pout和f-measure。在圖3中,我們選擇前50個值和相應(yīng)的對象相關(guān)性。圖3中的召回低于圖2中的召回,因?yàn)槭謩訕?biāo)注的離群值相關(guān)性數(shù)量與檢測到的離群值相關(guān)性(即圖3中的joutcorrj?2jcorrdj)不同。aminer中的功能數(shù)量高于yahoo!中的功能數(shù)量。電影,這可能導(dǎo)致更高的精度在aminer。同時,可能需要較長的時間才能在胺液中獲得充分的特性。 在第二個實(shí)驗(yàn)中,我們驗(yàn)證了我們提出的算法的可擴(kuò)展性。在Aminer和Yahoo!電影數(shù)據(jù)集,我們將對象數(shù)量從1000增加到4000,然后觀察運(yùn)行時間。圖4顯示,隨著數(shù)據(jù)量的線性增長,執(zhí)行時間幾乎是線性增長,而不是指數(shù)增長。然后,我們將處理器的數(shù)量從2更改為8,然后觀察運(yùn)行時間。圖5表明,隨著處理器數(shù)量的增加,執(zhí)行時間大大縮短,這意味著我們提出的方法可以執(zhí)行并行計(jì)算。 在第三個實(shí)驗(yàn)中,我們使用三個基線算法(cdoutliers[16]、基于查詢的[17]、abcoutliers[26])進(jìn)行了比較實(shí)驗(yàn)。CDoutlier基于聯(lián)合非負(fù)矩陣分解發(fā)現(xiàn)了所有對象類型的流行社區(qū)分布模式。cdoutlier組作者基于他們的研究區(qū)域分布。也就是說,它只考慮網(wǎng)絡(luò)中的內(nèi)容信息。根據(jù)用戶輸入的查詢,基于查詢的異常值檢測。在整個過程中,它考慮的結(jié)構(gòu)信息多于內(nèi)容信息。Abcoutliers計(jì)算所有匹配的群組結(jié)果。它不如基于查詢的算法有效。圖6中的曲線表明 圖4。在aminer和yahoo!上不同數(shù)據(jù)數(shù)量條件下的運(yùn)行時間比較電影數(shù)據(jù)集。(選擇前100個對象相關(guān)性作為離群值相關(guān)性)。 圖5。在aminer和yahoo!上不同處理器數(shù)量條件下的運(yùn)行時間比較。電影數(shù)據(jù)集。(選擇前100個對象相關(guān)性作為離群值相關(guān)性)。 (a)(b)圖6。Aminer和Yahoo!四種異常值檢測方法的性能比較電影。 structure2內(nèi)容的性能優(yōu)于cdoutlier、query-based和abcoutlier。 在第四個實(shí)驗(yàn)中,我們驗(yàn)證了該方法的有效性。從圖7的曲線可以看出,結(jié)構(gòu)2內(nèi)容的時間復(fù)雜度比其他基線算法要低得多。此外,當(dāng)我們插入新數(shù)據(jù)或刪除過時數(shù)據(jù)時,我們的增量方法不需要從頭計(jì)算相似性。它可以大大降低時間復(fù)雜度和空間復(fù)雜度。 在第五個實(shí)驗(yàn)中,我們提供了一個案例研究來說明什么樣的對象相關(guān)性應(yīng)該被視為異常相關(guān)性。我們根據(jù)數(shù)據(jù)集的格式對數(shù)據(jù)進(jìn)行注釋。例如,在aminer中,我們添加了'fty author (a)(b) 圖7。我們建議的結(jié)構(gòu)內(nèi)容和三個基線算法的運(yùn)行時間,兩個數(shù)據(jù)集上的對象數(shù)不同。 表7.Aminer數(shù)據(jù)集異常關(guān)聯(lián)的案例研究。 論文編號 作者 關(guān)鍵詞 磷1 A1,A2 k1、k2、k3、k4、k5 磷2 A1,A2 K6、K7、K8、K9、K10 磷3 一1 k1、k2、k3、k4、k5 磷4 一2 K6、K7、K8、K9、K10 磷5 A3,A4 K11、K12、K13、K14、K15 磷6 A5,A6 K11、K12、K13、K14、K15 具有結(jié)構(gòu)相似性但幾乎沒有內(nèi)容相似性的關(guān)聯(lián),并添加另一個具有內(nèi)容相似性但幾乎沒有結(jié)構(gòu)相似性的作者關(guān)聯(lián)。在前一個案例中,兩位作者是多篇論文的共同作者,但他們的研究領(lǐng)域完全不同。在后一種情況下,兩位作者的研究領(lǐng)域幾乎相同,但他們從不在論文上合作;谝陨蟽煞N情況,我們在aminer中注釋數(shù)據(jù)。表7列出了兩種異常值相關(guān)性。例如,aa和aa被認(rèn)為是離群關(guān)聯(lián),因?yàn)樗鼈冊趦善撐纳蠀f(xié)作,但它們的研究領(lǐng)域完全不同。此外,a(a_)和a(a_)被視為離群關(guān)聯(lián),因?yàn)樗鼈兊难芯款I(lǐng)域相同,但以前從未合作過。我們可以互相推薦,看看他們能否進(jìn)行學(xué)術(shù)交流。1 2 3 45 6 8。結(jié)論 In this paper, we propose an incremental outlier correlation detection method for heterogeneous information networks based on 3-tuples and structure-content difference. The Structure2Content model includes two parts: structure-level and content-level. In these two parts, the 3-tuples and the mirror step are used to measure the closeness degree between target objects. An iterative process and the coverage rate are combined to get su±cient features to represent the target objects in contentlevel. The insertion and deletion process demonstrates that our proposed method does not need to train the data from the beginning when inserting new data or deleting obsoleted data. In addition, using 3-tuples to store the target objects and the corresponding relations can save more space than using the adjacent matrix. Experimental results show that our proposed outlier detection method, Structure2Content, can incrementally discover outlier correlations in heterogeneous information networks. 9. Future Work Future work on highlighting the heterogeneity during the calculating process is needed. For example, it would be interesting to use 3-tuples to represent the relations between di?erent types of objects. Also, we plan to detect outliers and outlier correlations simultaneously. Then, we can carry on comprehensive analysis about single outliers and outlier correlations. And we should think about how to deal with new objects with little information. The work on development of distributed version of the incremental outlier detection algorithm is also needed. Acknowledgments This work is supported by the National Natural Science Foundation of China under grant No. 60903098, the Project of Jilin Provincial Industrial Technology Research and Development (JF2012c016-2), and Graduate Innovation Fund of Jilin University (2016183, 2016184). References 1. F. Angiulli and F. Fassetti, Towards generalizing the uniˉcation with statistical outliers: The gradient outlier factor measure, ACM Trans. Knowl. Discov. Data 10(3) (2016), Article ID: 27. 2. F. Angiulli, F. Fassetti, L. Palopoli and G. Manco, Outlying property detection withnumerical attributes, Data Mining Knowl. Discov. (2013) 1–30. 3. C. C. Aggarwal and S. Sathe, Theoretical foundations and algorithms for outlierensemblesk, ACM SIGKDD Expl. Newslett. 17(1) (2015) 24–47. 4. F. Dufrenois and J. C. Noyer, One class proximal support vector machines, Pattern Recognition 52 (2016) 96–112. 5. F. Chen, C. T. Lu and A. P. Boedihardjo, GLS-SOD: A generalized local statisticalapproach for spatial outlier detection, in Proc. 16th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2010. 6. G. H. Orair, C. H. C. Teixeira, W. Meira Jr., Y. Wang and S. Parthasarathy, Distancebased outlier detection: Consolidation and renewed bearing, in Proc. VLDB Endowment 3(1–2) 2010. 7. R. Gupta and K. Pandey, Density based outlier detection technique, Adv. Intell. Syst. Comput. 433 (2016) 51–58. 8. T. Zhang, R. Ramakrishnan and M. Livny, BIRCH: An e±cient data clustering methodfor very large databases, in ACM SIGMOD Record (ACM, 1996). 9. S. Guha, R. Rastogi and K. Shim, CURE: An e±cient clustering algorithm for largedatabases, in ACM SIGMOD Record (ACM, 1998). 10. G. Karypis, E. H. Han and V. Kumar, Chameleon: Hierarchical clustering using dynamicmodeling, Computer 32(8) (1999) 68–75. 11. T. B. Wu, Y. Cheng, Z. K. Hu, W. P. Xie and Y. L. Liu, A new PLS and bayesianclassiˉcation based online outlier detection method, in Proc. 3rd Int. Conf. Advanced Design and Manufacturing Engineering, 2013. 12. N. Koochakzadeh, K. Kianmehr, J. Jida, I. Lee, R. Alhajj and J. Rokne, Semi-superviseddynamic classiˉcation for intrusion detection, Int. J. Softw. Eng. Knowl. Eng. 20(2) (2010) 139–154. 13. I. S. Sitanggang and D. A. M. Baehaki, Global and collective outliers detection on hotspotdata as forest ˉres indicator in Riau Province, Indonesia, in Proc. 2nd IEEE Int. Conf. Spatial Data Mining and Geographical Knowledge Services, 2015, pp. 66–70. 14. J. Gao, H. B. Cheng and P. N. Tan, Semi-supervised outlier detection, in Proc. 2006 ACM Symp. Applied Computing, 2006, pp. 635–636. 15. F. Rasheed and R. Alhajj, A framework for periodic outlier pattern detection in timeseries sequences, IEEE Trans. Cybernetics 44(5) (2014) 569–582. 16. M. Gupta, J. Gao, C. Aggarwal and J. Han, Community distribution outlier detection inheterogeneous information networks, European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2013, pp. 557–573. 17. H. Zhuang, J. Zhang, G. Brova, J. Tang, H. Cam, X. Yan and J. Han, Mining query-basedsubnetwork outliers in heterogeneous information networks, IEEE Int. Conf. Data Mining, 2014, pp. 1127–1132. 18. D. Pokrajac, N. Reljin, N. Pejcic and A. Lazarevic, Incremental connectivity-based outlierfactor algorithm, in Proc. Int. Conf. Visions of Computer Science BCS International Academic Conference, 2008, pp. 211–224. 19. C. H. Ju and Y. L. Li, An incremental outlier detection model for transactions datastreams, J. Inf. Comput. Sci. 10(1) (2013) 49–59. 20. Y. Sun, J. Han, X. Yan, P. S. Yu and T. Wu, PathSim: Meta path-based top-k similaritysearch in heterogeneous information networks, in VLDB'11, 2011, pp. 992–1003. 21. B. Liu, Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, 2nd edn. (Springer, Berlin, 2011). 22. W. B. Croft, D. Metzler and T. Strohman, Search Engines: Information Retrieval in Practice (Addison-Wesley, 2009). 23. J. Tang, J. Zhang, L. M. Yao, J. Z. Li, L. Zhang and Z. Su, Arnetminer: Extraction andmining of academic social networks, in Proc. 14th ACM SIGKDD Int. Conf. Knowl. Discovery and Data Mining, 2008, pp. 990–998. 24. Yahoo! webscope program, http://webscope.sandbox.yahoo.com. Accessed: 28/01/2016. 25. T. Peng and L. Liu, Focused crawling enhanced by CBP-SLC, Knowl.-Based Syst. 51 (2013) 15–26. 26. M. Gupta, J. Gao, X. F. Yan, H. Cam and J. W. Han, On detecting association-basedclique outliers in heterogeneous information networks, Advances in Social Networks Analysis and Mining, 2013, pp. 108–115.







