久久精品卡通在线|一级片视频免费观看|91AⅤ在线爱插射在线|无码a片网站中欧美在线精品|国产亚洲99久久精品|欧洲久久精品日本无码高清片|国产主播高清福利在线|国产一极小视频观看|国产十免费十无码十在线|国产一级视频在线观看免费

您當(dāng)前的位置:鋼材 > 型鋼 > 市場(chǎng)分析

結(jié)構(gòu)dqe,結(jié)構(gòu)dq

來源:頭條 作者: chanong
分享到
關(guān)注德勤鋼鐵網(wǎng)在線:
在線咨詢:
  • 掃描或點(diǎn)擊關(guān)注德勤鋼鐵網(wǎng)在線客服

異構(gòu)網(wǎng)絡(luò)無處不在。人們喜歡從這樣的網(wǎng)絡(luò)中發(fā)現(xiàn)稀有但有意義的物體和模式。無論結(jié)構(gòu)或內(nèi)容相似度如何,相應(yīng)的對(duì)象都可以用于數(shù)據(jù)分析。然而,結(jié)構(gòu)和內(nèi)容之間的主要區(qū)別值得更多關(guān)注。在本文中,我們提出了一種稱為“結(jié)構(gòu)-2-內(nèi)容”的異常相關(guān)性檢測(cè)方法,該方法在結(jié)構(gòu)級(jí)別和內(nèi)容級(jí)別逐步發(fā)現(xiàn)異常相關(guān)性。結(jié)構(gòu)2 的內(nèi)容解決了三個(gè)重要問題: (1)如何衡量目標(biāo)對(duì)象的結(jié)構(gòu)和內(nèi)容相似性?(2)如何確定對(duì)象的代表性特征?(3)添加新數(shù)據(jù)或刪除舊數(shù)據(jù)?如何。為了應(yīng)對(duì)這些挑戰(zhàn),結(jié)構(gòu)2 內(nèi)容應(yīng)用了四種主要技術(shù):(1)使用兩個(gè)矩陣分別保留結(jié)構(gòu)和內(nèi)容相似性;(2)使用三元組;表示對(duì)象之間的接近程度;(3)將鏡像步驟和迭代過程獲得top-K異常值相關(guān)性;(4)僅更新NG 3元組,而不是從頭開始訓(xùn)練所有數(shù)據(jù)。它可以幫助您逐步插入或刪除數(shù)據(jù),而無需使用大量實(shí)驗(yàn)表明,本文提出的方法對(duì)于檢測(cè)異常相關(guān)性具有良好的效果。關(guān)鍵詞:離群值相關(guān)性、異構(gòu)網(wǎng)絡(luò)、結(jié)構(gòu)級(jí)別、內(nèi)容級(jí)別、相似性。

1.簡(jiǎn)介:在分析異構(gòu)信息網(wǎng)絡(luò)中的多類型對(duì)象和多類型關(guān)系時(shí),識(shí)別罕見的、有趣的和顯著的對(duì)象、模式或子圖至少比理解它們要好。

通訊作者. 1013

通用數(shù)據(jù)分布或模型。作為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要領(lǐng)域,異常值檢測(cè)可用于提取網(wǎng)絡(luò)中與其他方法顯著不同的對(duì)象、模式或子圖。對(duì)于由多個(gè)節(jié)點(diǎn)和邊組成的異構(gòu)網(wǎng)絡(luò),人們提出了許多方法來識(shí)別異;蚩梢傻膯蝹(gè)頂點(diǎn)和子圖上的頂點(diǎn)[1-4]。例如,在書目網(wǎng)絡(luò)中,如果作者的出版物與其研究領(lǐng)域無關(guān),則他可能是獨(dú)立的局外人。例如,考慮氣候研究中心子網(wǎng)中的異常值:如果Nomad 浮標(biāo)的溫度下降超過10 度,它可能會(huì)發(fā)生故障或經(jīng)歷波濤洶涌的海面。然而,如果多個(gè)游牧浮標(biāo)在短時(shí)間內(nèi)在不同地點(diǎn)表現(xiàn)出相同的現(xiàn)象,那就值得懷疑了。這意味著這些地區(qū)正在發(fā)生極端天氣。

在本文中,我們提出了一種稱為“結(jié)構(gòu)2 內(nèi)容”的增量異常相關(guān)性檢測(cè)方法。該方法的主要思想是分別計(jì)算目標(biāo)對(duì)象在結(jié)構(gòu)和內(nèi)容層面的相似度。測(cè)量結(jié)構(gòu)相似性和內(nèi)容相似性之間的差異,并獲得異常相關(guān)性。三元組用于表示兩個(gè)對(duì)象之間的關(guān)系。該對(duì)象可以是目標(biāo)對(duì)象或表示目標(biāo)對(duì)象的特征。兩個(gè)物體之間的重量是它們之間的接近度。我們還提出了一個(gè)鏡像步驟來獲得兩個(gè)對(duì)象之間的間接EECT。此外,由于參數(shù)加載方法可能會(huì)導(dǎo)致可用性問題,因此我們提出了一個(gè)稱為覆蓋率的概念,以在不使用太多參數(shù)的情況下獲得足夠的特征來表示目標(biāo)對(duì)象。最后,我們對(duì)結(jié)構(gòu)和內(nèi)容水平之間異常相關(guān)性的差異進(jìn)行了排名。還顯示了插入新數(shù)據(jù)和刪除舊數(shù)據(jù)時(shí)的增量過程。此過程僅更新一部分?jǐn)?shù)據(jù),而不是從頭開始訓(xùn)練所有數(shù)據(jù)。我們用Aminer 和Yahoo! 做了一些實(shí)驗(yàn)。結(jié)構(gòu)2 電影用于驗(yàn)證內(nèi)容模型的E 有效性。實(shí)驗(yàn)結(jié)果表明,結(jié)構(gòu)內(nèi)容可以有效發(fā)現(xiàn)異常相關(guān)性。

在異構(gòu)網(wǎng)絡(luò)中,不僅識(shí)別單個(gè)異常值,而且檢測(cè)異常值之間的相關(guān)性也非常重要。所有對(duì)象在結(jié)構(gòu)或內(nèi)容上都可能是正常的。然而,檢測(cè)單個(gè)異常值可能會(huì)忽略對(duì)象之間的相關(guān)性。從不同的角度來看,例如在結(jié)構(gòu)和內(nèi)容層面上,它們的相似之處也可能有很大不同。此外,異構(gòu)網(wǎng)絡(luò)中異常值的相關(guān)性也不同于同質(zhì)網(wǎng)絡(luò)中異常值的相關(guān)性。在異構(gòu)網(wǎng)絡(luò)中,與異常相關(guān)的兩個(gè)對(duì)象可能屬于同一類型,但在整個(gè)計(jì)算過程中必須考慮多類型對(duì)象和多類型關(guān)系。然而,在同構(gòu)網(wǎng)絡(luò)中,具有異常相關(guān)性的兩個(gè)對(duì)象不具有多類型關(guān)系,并且可能僅基于統(tǒng)計(jì)數(shù)據(jù)及其值而相關(guān)。

本文的貢獻(xiàn)可總結(jié)如下。

(1)詳細(xì)研究異構(gòu)網(wǎng)絡(luò)的結(jié)構(gòu)和內(nèi)容差異,提出異構(gòu)網(wǎng)絡(luò)中異常相關(guān)性檢測(cè)的漸進(jìn)方法。

(2) 三元組用于表示多種類型的對(duì)象及其對(duì)應(yīng)關(guān)系。

(3)結(jié)合鏡像步驟和迭代計(jì)算過程以獲得目標(biāo)對(duì)象在內(nèi)容級(jí)別的特征表示。

(4) 插入和刪除過程逐步展示了如何獲得異常關(guān)聯(lián)。

(5)在兩個(gè)真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了該方法的有效性。

本文的其余部分組織如下。相關(guān)工作將在第二節(jié)中討論。 2. 第3 節(jié)介紹本文使用的定義和概念。我們提出的結(jié)構(gòu)內(nèi)容模型的總體框架也在第2 節(jié)中描述。三。第4 節(jié)描述了如何使用三元組和鏡像步驟來測(cè)量結(jié)構(gòu)級(jí)別的相似性。第5 節(jié)描述了如何使用三元組和迭代過程來測(cè)量?jī)?nèi)容級(jí)別的相似性。第6 節(jié)描述了如何識(shí)別離群值相關(guān)性以及如何插入新數(shù)據(jù)和刪除舊數(shù)據(jù)。我們進(jìn)行了多次綜合實(shí)驗(yàn),以在幾秒鐘內(nèi)評(píng)估所提出方法的效率和有效性。 7. 提供實(shí)驗(yàn)設(shè)置、性能指標(biāo)、數(shù)據(jù)集和結(jié)果。第8 節(jié)得出我們的結(jié)論。第9 節(jié)描述了未來的工作。

2.相關(guān)工作異常值檢測(cè)方法已經(jīng)被研究了很長(zhǎng)時(shí)間。大多數(shù)傳統(tǒng)方法是基于統(tǒng)計(jì)的[1, 5]、基于鄰近性的[6, 7]、基于聚類的[8-10]、基于分類的[11, 12]和異常值收集[13]。高等人[14]使用了一種新的目標(biāo)函數(shù),使用標(biāo)記和未標(biāo)記的數(shù)據(jù)進(jìn)行半監(jiān)督異常檢測(cè)。 Rasheed和Alhajj[15]提出了一種基于時(shí)間序列周期性的sux三叉樹算法的離群模式檢測(cè)框架。處理的對(duì)象屬于同一類型。因此,他們提出的方法只能用于同質(zhì)信息網(wǎng)絡(luò)。

近年來,隨著異構(gòu)網(wǎng)絡(luò)的出現(xiàn),整個(gè)網(wǎng)絡(luò)中對(duì)象的類型和關(guān)系呈現(xiàn)多樣化。最初針對(duì)同構(gòu)網(wǎng)絡(luò)的方法不適用于異構(gòu)網(wǎng)絡(luò)。異構(gòu)網(wǎng)絡(luò)的離群點(diǎn)檢測(cè)方法有兩種:?jiǎn)坞x群點(diǎn)和子圖離群點(diǎn)。 Gupta 等人[16]提出了一個(gè)新概念,稱為社區(qū)分布異常(cdoutliers)。它使用非負(fù)矩陣分解來檢測(cè)社區(qū)分布不遵循其他常見社區(qū)分布模式的對(duì)象。他們還在異構(gòu)網(wǎng)絡(luò)中以單個(gè)頂點(diǎn)的形式提取異常值。 Zhuang等人[17]提出了一種基于查詢的異構(gòu)網(wǎng)絡(luò)子網(wǎng)異常檢測(cè)方法。他們定義了子網(wǎng)相似性的概念,并根據(jù)異常值對(duì)子網(wǎng)進(jìn)行了排名。異常值由子圖表示。

此外,許多研究人員還深入研究了一些增量異常檢測(cè)方法,以降低時(shí)間復(fù)雜度和空間復(fù)雜度。 Pokrajac 等人[18]開發(fā)了一種增量異常檢測(cè)方法。他們提出了一個(gè)稱為基于連接的異常因子(cof) 的概念,并展示了如何在每次插入或刪除時(shí)更新cof。 Ju和Li[19]提出了一種增量方法IODM(增量異常值檢測(cè)模型)。他們挖掘數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則并增量更新關(guān)聯(lián)規(guī)則倉庫(ARW)以檢測(cè)異常交易。增量過程只更新部分?jǐn)?shù)據(jù),而不是從頭開始訓(xùn)練所有數(shù)據(jù),可以節(jié)省大量時(shí)間和空間。

三。問題定義我們從一些正式的問題定義開始,并提出了一些新概念。接下來,我們概述結(jié)構(gòu)2內(nèi)容的總體框架。本章介紹了主要方法和完整的理論。 4-6.為了陳述一個(gè)完整的理論,我們需要以下概念:

定義1(異構(gòu)信息網(wǎng)絡(luò)[20])。假設(shè)給定一個(gè)有向圖G=_V;E;'A;R_。 V 是節(jié)點(diǎn)集,E 是邊集。和是兩個(gè)實(shí)體類型映射函數(shù)。 _v_2 a 表示每個(gè)實(shí)體v 對(duì)應(yīng)a 中的特定實(shí)體類型。 e_2 r表示每條邊e對(duì)應(yīng)屬于r的某種關(guān)系。如果節(jié)點(diǎn)類型為jaj1或邊類型為jrj1,則認(rèn)為是異構(gòu)信息網(wǎng)絡(luò),否則認(rèn)為是同構(gòu)信息網(wǎng)絡(luò)。

在現(xiàn)實(shí)世界中,存在著許多異構(gòu)的信息網(wǎng)絡(luò)實(shí)例。例如,書目網(wǎng)絡(luò)具有四種類型的節(jié)點(diǎn):文章、作者、術(shù)語和位置,以及表示出版物到出版物、寫作到寫作和引用到引用關(guān)系的多個(gè)邊。電影網(wǎng)絡(luò)有四種類型的節(jié)點(diǎn):電影、演員、流派和語言,以及代表它們之間關(guān)系的邊。

定義2(前一個(gè)節(jié)點(diǎn)和下一個(gè)節(jié)點(diǎn))。給定一個(gè)無向圖g=_v;e_。 A;B 2 V.A 和B 通過G 連接,得到_A;B_2 E。節(jié)點(diǎn)A 被訪問,但節(jié)點(diǎn)B 未被訪問。然后我們認(rèn)為a是b的前驅(qū)(a可以用^b_表示,b稱為a(b可以用^)表示)。

定義3(異常相關(guān))。假設(shè)異構(gòu)網(wǎng)絡(luò)有n個(gè)對(duì)象作為輸入,結(jié)構(gòu)層和內(nèi)容層中任意兩個(gè)對(duì)象的相似度分別用si,j和ci,j表示。計(jì)算si;j 和ci;j 之間的差。找出si;j 和ci;j 之間差異的前k 個(gè)值。與前k 個(gè)差異相對(duì)應(yīng)的對(duì)象相關(guān)性_i;j_ 被視為異常相關(guān)性。

與同構(gòu)網(wǎng)絡(luò)中的異常相關(guān)性檢測(cè)相比,異構(gòu)網(wǎng)絡(luò)中的異常相關(guān)性檢測(cè)是不同的。在同構(gòu)網(wǎng)絡(luò)中,離群值相關(guān)性只能根據(jù)兩個(gè)對(duì)象之間的統(tǒng)計(jì)來獲得。離群值相關(guān)性之間沒有結(jié)構(gòu)或內(nèi)容信息。然而,在異構(gòu)網(wǎng)絡(luò)中,多種類型的對(duì)象和多種類型的關(guān)系的存在使得檢測(cè)異常相關(guān)性變得更加復(fù)雜。

定義4(啟用的功能)。如果一個(gè)特征X被賦予了一個(gè)詞項(xiàng)權(quán)重值,則稱其為有效特征,否則稱其為無效特征。

定義5(范圍)。有效特征與特征總數(shù)的比值定義為覆蓋率,表示為cr。

圖1 顯示了我們建議的結(jié)構(gòu)2 內(nèi)容框架。我們從兩個(gè)方面計(jì)算異構(gòu)信息網(wǎng)絡(luò)中對(duì)象之間的相似度。圖1。結(jié)構(gòu)2 內(nèi)容模型的總體框架。

看法。第一個(gè)是對(duì)象之間結(jié)構(gòu)層面的相似性,如圖1 左側(cè)所示。第二個(gè)是對(duì)象之間內(nèi)容級(jí)別的相似性,如圖1 右側(cè)所示。接下來,我們利用矩陣s 和c 之間的較大差異來獲得前k 個(gè)離群值相關(guān)性。

4.結(jié)構(gòu)層組件在本節(jié)中,我們從結(jié)構(gòu)角度計(jì)算兩個(gè)對(duì)象之間的相似度。此外,Structure2content 模型的結(jié)構(gòu)級(jí)組件是增量過程。當(dāng)新數(shù)據(jù)出現(xiàn)時(shí),無需從頭開始計(jì)算,大大降低了時(shí)間復(fù)雜度。在幾秒鐘內(nèi)查看組合步驟。分別為4.1和鏡像步驟4.2。三元組用于計(jì)算異構(gòu)網(wǎng)絡(luò)中任意兩個(gè)對(duì)象之間的結(jié)構(gòu)關(guān)系。

4.1. 組合程序

給定一個(gè)由多種類型的對(duì)象及其對(duì)應(yīng)關(guān)系組成的異構(gòu)網(wǎng)絡(luò)G。在異常值檢測(cè)領(lǐng)域,人們從網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)內(nèi)容的角度進(jìn)行了異常值檢測(cè)的研究。然而,很少有研究從網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容信息的差異角度檢測(cè)異常相關(guān)性。此外,當(dāng)插入新數(shù)據(jù)或刪除舊數(shù)據(jù)時(shí),傳統(tǒng)的異常值檢測(cè)方法通常從頭開始計(jì)算對(duì)象的異常值。因此,我們首先提出一種增量異常相關(guān)檢測(cè)方法來計(jì)算結(jié)構(gòu)級(jí)別的對(duì)象相似度。

眾所周知,異構(gòu)網(wǎng)絡(luò)包含許多不同類型的對(duì)象。某些類型的對(duì)象被用作計(jì)算接近度的目標(biāo)。目標(biāo)對(duì)象以多條記錄的形式表示。例如,在書目網(wǎng)絡(luò)中,作者可以被視為目標(biāo)對(duì)象。這些記錄以共同作者的身份出現(xiàn)。電影網(wǎng)絡(luò)可能會(huì)將演員視為目標(biāo)。這些唱片都有聯(lián)合主演。結(jié)構(gòu)層的最終相似度存儲(chǔ)在矩陣S中,如下所示。 2s13 2s12;11 s12;22 s21;nn 3SSNN=664S.27775=4…;1…;2 SN…;N 56S.666SS777

Serial Number; Serial Number; 為了逐步獲得異常值相關(guān)性,異構(gòu)網(wǎng)絡(luò)中的感興趣對(duì)象以3元組的形式存儲(chǔ),用_oi; eij; oj_表示。 oi和oj是目標(biāo)對(duì)象,eij表示oi和oj之間的接近程度。

表格1。已記錄十個(gè)案例,其中包括幾位作者。

ID

共同作者ID

ID

共同作者ID

磷1

A1;A2;A3;A4

林6 A2;A8;A9

磷2

A1;A2;A4;A5

磷7

a2;a4;a5;a10

磷3

A4;A5;A6;A7

林8 A3; A6; A11

磷4

A1;A2;A4;A6

磷9

A1;A2;A3;A4

磷5

A2;A8

磷10

A1;A3;A6;A7

表2. 從表1 生成的所有三個(gè)元組。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三項(xiàng)式

f1,1,2g f1,1,2g f4,1,5g f1,1,2g f2,1,8g f2,1,8g f2,1,4g f3,1,6g f1,1,2g f1,1,3g f1,1,3g f1,1,4g f4,1,6g f1,1,4g f2,1,9g f2,1,5g f3,1,11g f1,1,3g f1,1,6g f1,1,4g f1,1,5g f4,1,7g f1,1,6g f8,1,9g f2,1,10g f6,1,11g f1,1,4g f1,1,7g f2,1,3g f2,1,4g f5,1,6g f2,1,4g f4,1,5g f2,1,3g f3,1,6G F 2,1,4g F 2,1,5g F 5,1,7g F 2,1,6g F 4,1,10g F 2,1,4g F 3,1,7g

3,1,4 4,1,5 6,1,7 4,1,6 5,1,10 3,1,4 6,1,7

F G F G F G F G F G F G F G F G G F G

結(jié)構(gòu)層oi和oj之間的相似度包括連接步驟和鏡像步驟兩部分,并且使用式(1)計(jì)算如下:

soi;oj=sdoi;oj_smoi;oj;_1_

這里,sdo;是oi和oj之間的直接類比。例如,表1有10條記錄,代表10個(gè)文章ID和對(duì)應(yīng)的作者ID。如表2所示,我們使用三元組來表示兩位作者之間的關(guān)系。根據(jù)直接合著關(guān)系,將三個(gè)元組合并(如表3所示)并I oJ

使用等式(2)計(jì)算sdo。我

X iri;J

sdoi;oj=sdoj;oi=n;_2_跟我來

其中n 是數(shù)據(jù)集中包含oi 或oj 的記錄總數(shù)。式(2)的條件是i必須小于j,僅僅考慮直接相似性是不夠的。用于計(jì)算增量過程的間接相似性和鏡像步驟將在下一節(jié)中討論。

4.2. 鏡像步驟

在本節(jié)中,我們提出了一種稱為鏡像步驟的方法,該方法計(jì)算兩個(gè)對(duì)象之間的間接相似度并逐步檢索異常值。當(dāng)我們得到表3中的三個(gè)元組后,我們將這三個(gè)元組鏡像到原始元組的另一側(cè)。

表3. 合并后的所有3 元組。

f1,0.25,2g f1,0.5,3g f1,0.57,4g f1,0.14,5g f1,0.29,6g f1,0.17,7g

F2、0.22、3G

F 2,0.625,4g F 2,0.25,5g F 2,0.1,6g F 2,0.29,8g F 2,0.14,9g F 2,0.14,10g

f3,0.25,4g f4,0.5,5g f5,0.17,6g f3,0.33,6g f4,0.29,6g f5,0.25,7g

f3,0.2,7g f4,0.14,7g f5,0.33,10g f3,0.25,11g f4,0.17,10g

F6,0.5,7g F8,0.5,9g F6,0.25,11g

表4. 鏡像表3 中的3 元組。

F2,0.25,1g f3,0.5,1g f4,0.57,1g f5,0.14,1g f6,0.29,1g f7,0.17,1g

F3.0.22,2克

f4,0.625,2g f5,0.25,2g f6,0.1,2g f8,0.29,2g f9,0.14,2g

10,0.14,2

f4,0.25,3g f5,0.5,4g f6,0.17,5g f6,0,33,3g f6,0.29,4g f7,0.25,5g

f7,0.2,3g f7,0.14,4g f10,0.33,5g f11,0.25,3g f10,0.17,4g

F7,0.5,6g F9,0.5,8g F11,0.25,6g

F/G型

3元組。例如,表3中的3元組f1,0.25,2g變?yōu)楸?中的3元組f1,0.25,1g。測(cè)量OA 和O 的緊密度并僅提取包含作者的記錄會(huì)導(dǎo)致信息過多丟失,因?yàn)楹雎粤碎g接協(xié)作。例如,A 和A 與A 合作,A 和A 合作發(fā)表多篇論文,A 和A 與A 合作發(fā)表一篇論文。當(dāng)然,A與A之間的親密度高于A與A之間的親密度。我們使用方程(3)來計(jì)算鏡像步驟中兩個(gè)對(duì)象之間的間接相似度。 3 63 6 3 6 1247 113 11 63 6 3 11T

smoi;oj=smoj;oi=xei;kek;j;_3_K 1

這里,t是具有間接合著者關(guān)系的作者數(shù)量。這是smo 中三元組數(shù)量的一半。例如,使用表3和表4中的三個(gè)元組計(jì)算OA和OIN的結(jié)構(gòu)水平之間的相似度如下。此外,算法1還描述了一種計(jì)算結(jié)構(gòu)層中對(duì)象之間相關(guān)性的算法。我是J3 6

SO3;O6=SDO3;O6_Smo3;O6

0:33_e3;1e1;6_e3;2e2;6_e3;4e4;6_e3;7e7;6_e3;11e11:6_

0:33_0:5 0:29_0:22 0:1_0:25 0:29_0:2 0:5_0:25 0:25_0:732:

0:732:

5. 內(nèi)容級(jí)組件

僅僅考慮異構(gòu)網(wǎng)絡(luò)上的鏈路結(jié)構(gòu)是不準(zhǔn)確和不全面的。在本節(jié)中,我們提出了一種迭代方法,該方法結(jié)合三元組來計(jì)算內(nèi)容層中對(duì)象之間的接近度。 ContentLevel組件使用其他類型的對(duì)象來表示目標(biāo)對(duì)象的特征。例如,在書目網(wǎng)絡(luò)中,關(guān)鍵字可以被視為作者的特征。在電影網(wǎng)絡(luò)中,類型可以被視為演員的特征。因此,內(nèi)容層面上的對(duì)象之間的緊密度存儲(chǔ)在矩陣C中如下: CNN=62646CCC…N1277735=62664CC12…;111 CC21…;222 CCN12…;NNN 57377;C

中國(guó)中國(guó);

其中,ci;j表示對(duì)象oi和oj之間的內(nèi)容級(jí)別相似度。以下是迭代計(jì)算ci;j 的方法。與矩陣S中的si;j類似,特征及其對(duì)應(yīng)關(guān)系由三個(gè)元組表示(表示為_ti;rij;tj_,如表5所示)。在書目網(wǎng)絡(luò)中,ti和tj代表目標(biāo)對(duì)象。特征對(duì)象rij 是ti 和tj 之間的接近度。表5 列出了所有三個(gè)元組。還需要鏡像步驟來獲得任意兩者之間的最終接近度。

表5.10 論文ID 和相應(yīng)關(guān)鍵字的示例。

ID

關(guān)鍵詞

ID

關(guān)鍵詞

磷1

A;B;C;H

磷6

G;I;K;L

磷2

C;D;E

磷7

C;F;G;我

磷3

A;C;F;G

磷8

C;D;E;I;J

磷4

C;D;I;J

磷9

A;C;D

磷5

G;我

磷10

A;B;D;E

表6. 從表5 生成的所有三個(gè)元組。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三項(xiàng)式

FA, 1, BG-FC, 1, DG-FA, 1, CG-FC, 1, DG-FA, 1, GG-FG, 1, IG-FC, 1, FG-FC, 1, DG-FA, 1,CG-FA,1,BG-FA,1,CG-FC,1,EG-FA,1,FG-FC,1,IG-FA,1,IG-FA,1,BG-FC,1, GG-FC,1,EG-FA,1,DG-FA,1,CG-FA,1,CG-FC,1,LG-FC,1,1,1,ig-FC,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ig-fc,1,dg-fa,1,eg-fb,1 ,cg-fc,1,fg-fd,1,ig-fi,1,kg-ff,1,ggfc,1,jg fb,1,dg

FB,1,汞

fc,1,gg fd,1,jg

FI,1,LG FF,1,IG FD,1,EG

FB,1,示例

FC,1,汞

FF、1、GG FI、1、JG

fk,1,lg fg,1,ig fd,1,ig fd,1,jg fe,1,ig fe,1jg fi,1,jg

FD,1,示例

特征。假設(shè)作者ap 發(fā)表論文p1 和p2,并使用式(4)計(jì)算與ap 直接相關(guān)的關(guān)鍵詞q 的權(quán)重項(xiàng)。

WPQ=N_P_D_PQ_Log_N_S;_4_K 琳琳Q1

這里,n_p_是作者ap發(fā)表的論文數(shù)量。 d_pq_是AP發(fā)表的論文中出現(xiàn)的關(guān)鍵詞的Q個(gè)數(shù)。因此,AP發(fā)表的文章中出現(xiàn)的關(guān)鍵詞越多,這些關(guān)鍵詞在AP的詞權(quán)重中體現(xiàn)得越清晰。 k_p_是作者ap發(fā)布的關(guān)鍵詞總數(shù)。 ns 是網(wǎng)絡(luò)中的論文總數(shù)。 p_q_ 是包含關(guān)鍵字p_q_ 的論文數(shù)量。也就是說,如果某個(gè)關(guān)鍵詞在一個(gè)集合中的多篇論文中頻繁使用,則不認(rèn)為它特別代表該類型的論文。例如,“關(guān)鍵字\數(shù)據(jù)挖掘”是一個(gè)廣泛的研究領(lǐng)域。如果作者發(fā)表了包含此關(guān)鍵字的論文,您可能不知道該論文涵蓋的研究領(lǐng)域。隨著關(guān)鍵字變得更加具體,例如時(shí)間異常檢測(cè)和異常相關(guān)性檢測(cè),可以用術(shù)語權(quán)重更具體地表達(dá)特征。因此,WPC=2log6 2 710_=0:067:1

使用術(shù)語權(quán)重值指定的特征稱為有效特征。與目標(biāo)對(duì)象直接相關(guān)的功能將添加到啟用的功能集中。將直接相關(guān)的屬性應(yīng)用于目標(biāo)對(duì)象是不夠的。與目標(biāo)對(duì)象間接相關(guān)的特征也應(yīng)該使用術(shù)語權(quán)重來分配。直接獲得與作者相關(guān)的關(guān)鍵詞的術(shù)語權(quán)重后,我們找到有效特征的后代節(jié)點(diǎn),并為無效特征分配術(shù)語權(quán)重值。然后,將無效特征添加到有效特征集中,直到CR達(dá)到80%。一旦CR達(dá)到80%,我們相信這些特征就可以用于內(nèi)容級(jí)別的相似度計(jì)算。由于圖可能包含圓形,因此我們可以使用輔助數(shù)組來標(biāo)記每個(gè)頂點(diǎn),并防止圖遍歷算法出現(xiàn)在循環(huán)內(nèi)部。迭代計(jì)算的過程如下。

wpq=wp^q rq^q;_5_

這里,rq^q 是節(jié)點(diǎn)q 與其前一個(gè)節(jié)點(diǎn)^q 之間的接近度,如上所述。 wp^q 是目標(biāo)節(jié)點(diǎn)ap 的^q 項(xiàng)的權(quán)重。如果所有目標(biāo)對(duì)象的覆蓋率滿足要求,則可以使用余弦相似度計(jì)算內(nèi)容級(jí)別的相似度,并將其存儲(chǔ)在上面的矩陣C中。算法2描述了計(jì)算內(nèi)容級(jí)相關(guān)性的算法如下。

6. 用于檢測(cè)離群值相關(guān)性的結(jié)構(gòu)2內(nèi)容模型

在本節(jié)中,我們介紹如何使用Structure2content 模型檢測(cè)異常關(guān)聯(lián)(第6.1 節(jié))。第6.2 節(jié)和第6.3 節(jié)描述了當(dāng)新數(shù)據(jù)插入數(shù)據(jù)集中時(shí)如何更新現(xiàn)有數(shù)據(jù),以及如何丟棄一些舊數(shù)據(jù)。

6.1. 異常相關(guān)檢測(cè)流程

根據(jù)第2節(jié)的描述。結(jié)構(gòu)和內(nèi)容級(jí)別的相似性分別存儲(chǔ)在矩陣S 和C 中。接下來計(jì)算S和C的Frobenius范數(shù),即JJSJJF和JJCJJF。 jjjf 是矩陣的Frobenius 范數(shù):jj jjf pms_。在S和C相同數(shù)量級(jí)的情況下,結(jié)構(gòu)層面的相似性和內(nèi)容層面的相似性是等價(jià)的。因此,S 和C 的Frobenius 規(guī)范是相同的。首先,將jjsjjf 除以jjjjf 即可得到參數(shù)。接下來,將矩陣C 的每個(gè)元素乘以參數(shù),使得jjsjjf 與jjjjf 相同。矩陣mos 用于存儲(chǔ)s c 的絕對(duì)值,其_i;j_ 項(xiàng)是每個(gè)有序相關(guān)性_i;j_ 的s i;j c i;j 的絕對(duì)值。每個(gè)對(duì)象之間的相關(guān)性差異被存儲(chǔ)在MOS中,可以找到兩個(gè)對(duì)象在結(jié)構(gòu)層面和內(nèi)容層面上的最大差異。 mos的top-k值意味著兩個(gè)目標(biāo)對(duì)象的結(jié)構(gòu)和內(nèi)容之間存在最大差異。在整個(gè)異構(gòu)網(wǎng)絡(luò)中,相應(yīng)對(duì)象的相關(guān)性被視為離群相關(guān)性。 n2Mn1=2

6.2. 插入

結(jié)構(gòu)2 在內(nèi)容模型插入過程中,在將一組新記錄插入到原始數(shù)據(jù)集中后,必須同時(shí)更新矩陣S和C。假設(shè)要插入一組包含多類型對(duì)象和對(duì)應(yīng)關(guān)系的記錄,并且插入的目標(biāo)對(duì)象也用三元組表示。整個(gè)插入過程包括兩個(gè)部分:(1)插入新的對(duì)象相關(guān)性,(2)更新現(xiàn)有的結(jié)構(gòu)級(jí)和內(nèi)容級(jí)相似性。插入新對(duì)象關(guān)聯(lián)時(shí)的計(jì)算過程如上所述。如果插入的對(duì)象關(guān)聯(lián)已存在于原始數(shù)據(jù)集中,我們首先使用新的對(duì)象關(guān)聯(lián)來計(jì)算結(jié)構(gòu)級(jí)別的相似度。插入的目標(biāo)對(duì)象由三元組表示,從而產(chǎn)生所有對(duì)象依賴關(guān)系的最終表示。增量部分

INCO;使用公式(1)計(jì)算。例如,插入的記錄為fa;a;ag。新記錄的對(duì)象依賴關(guān)系為fa;ag、fa;ag、fa;ag。 a和a之間的直接相似度(用s incdo;_表示)為1=1/40:143。包括aa、ais在內(nèi)共有7條記錄。白熾燈的e輸入為1=7=0:143。使用鏡像步驟的間接相似性(表示為s i oJ1361336163 6 i oJ7 3 6 31 16)

incmo;_ 是e inc 乘以e inc,等于1=1/4 0:02。在這種情況下,增量部分s inco; 等于s incdo; 加上s incmo;最終結(jié)構(gòu)層面的相似度為i oJ31 1649 3o6 3o6 3o6。

incoplus 即=0:732_0:143_0:02=0:877.3o6 3o63o6

6.3. 刪除

在實(shí)際應(yīng)用中,除了插入新記錄外,還需要?jiǎng)h除一些舊的數(shù)據(jù)對(duì)象。刪除這些舊記錄時(shí),必須消除合并和鏡像步驟引入的相似性。例如,刪除表1中的一條記錄(如p)。我們不需要重新計(jì)算數(shù)據(jù)集中的所有數(shù)據(jù),而是需要?jiǎng)h除表2 的第三列并更新包含a;a;a a 和a a 的所有三個(gè)元組。類似地,在計(jì)算內(nèi)容層面的相似度時(shí),特征之間的相似度的計(jì)算方式與上述相同。可以迭代地獲得目標(biāo)對(duì)象之間的相似度。 3456 7

7.實(shí)驗(yàn)與結(jié)果

眾所周知,由于缺乏基本事實(shí),異常值評(píng)估一直是一個(gè)難題。在本節(jié)中,我們定義一個(gè)稱為pout 的異常值度量來評(píng)估異構(gòu)網(wǎng)絡(luò)中的異常值相關(guān)性(第7.1 節(jié))。精確率和召回率也用作性能指標(biāo)(第7.1 節(jié))。接下來,使用兩個(gè)數(shù)據(jù)集aminer 和yahoo!this movie 來驗(yàn)證所提出的結(jié)構(gòu)2(第7.2 節(jié))的內(nèi)容有效性。在本文的其余部分中,我們進(jìn)行了一些實(shí)驗(yàn),以驗(yàn)證在異構(gòu)網(wǎng)絡(luò)中挖掘離群值相關(guān)性(秒)時(shí),計(jì)算結(jié)構(gòu)級(jí)別和內(nèi)容級(jí)別之間的顯著區(qū)別是否成立。 7.3)。

7.1. 績(jī)效指標(biāo)

為了測(cè)試我們提出的異常相關(guān)檢測(cè)方法的質(zhì)量,設(shè)計(jì)了一種新的性能指標(biāo),即pout。 pout 可以測(cè)量錯(cuò)誤標(biāo)記或丟失的對(duì)象關(guān)聯(lián)的數(shù)量。 “標(biāo)記為錯(cuò)誤”表示該對(duì)象的依賴關(guān)系正常

數(shù)據(jù),但標(biāo)記為異常相關(guān)性。\“缺少”意味著對(duì)象相關(guān)性應(yīng)該是離群相關(guān),但它不存在于Top-K離群相關(guān)集中。錯(cuò)誤標(biāo)記的離群值相關(guān)性的數(shù)量用w表示。離群值檢測(cè)過程中丟失的離群值相關(guān)性的數(shù)量用m表示。outcorr是數(shù)據(jù)集中手動(dòng)注釋的總離群值相關(guān)性。相應(yīng)地,我們使用等式(6)計(jì)算出:pout?jw_m j 100%:_6_ 2 奧科爾 與另一種流行的評(píng)估度量(稱為準(zhǔn)確性)相反,pout使用了兩種相反的情況:真-負(fù)和假-正,來測(cè)試在檢測(cè)過程中是否識(shí)別了所有可能的異常值相關(guān)性。另外兩個(gè)常見的指標(biāo),精度和召回,也適用于重新評(píng)估我們提出的檢測(cè)模型的可用性[21]。異常值相關(guān)性檢測(cè)的精度是被指定為Top-K異常值相關(guān)性的對(duì)象相關(guān)性的分?jǐn)?shù),它衡量了拒絕正常對(duì)象相關(guān)性的效果;貞浭怯墒謩(dòng)注釋數(shù)據(jù)分配的對(duì)象相關(guān)性的分?jǐn)?shù),它測(cè)量了在所有異常相關(guān)性結(jié)束時(shí)的表現(xiàn)。因此,精度和召回使用公式計(jì)算。(7)和(8)如下:精度為1/4 J J J WJ 100%;_7_科爾德科爾德科爾德 召回1/4 J J WJ 100%8_奧科爾 其中corrd是Top-K離群值相關(guān)性中的一組對(duì)象相關(guān)性。outcorr是數(shù)據(jù)集中手動(dòng)注釋的總離群值相關(guān)性。f-measure[22]作為精度和召回的調(diào)和平均值,也用于測(cè)量我們方法的性能。用式(9)計(jì)算: F測(cè)度γ2_精度_召回;γ9γ1 精確召回 其中是重新考慮精確性和召回的相對(duì)重要性的權(quán)重。顯然,如果大于1,那么召回值比精度值更重要。在本文中,被賦予一個(gè)常數(shù)1。 7.2. 數(shù)據(jù)集集合 我們使用兩個(gè)真實(shí)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):Aminer[23]和Yahoo!電影[24]。 氨基。我們從aminer生成數(shù)據(jù),aminer是一個(gè)書目異構(gòu)信息網(wǎng)絡(luò)。它主要由三部分組成,分別是阿明的作者、阿明的論文作者和阿明的合著者。它擁有1712433位作者和2092356篇論文,涵蓋計(jì)算機(jī)科學(xué)的不同領(lǐng)域。有四種類型的節(jié)點(diǎn):論文、作者、地點(diǎn)和術(shù)語,以及構(gòu)建整個(gè)異構(gòu)信息網(wǎng)絡(luò)的幾種邊緣。為了更準(zhǔn)確地檢測(cè)異常值,對(duì)原始數(shù)據(jù)集進(jìn)行了補(bǔ)充。使用爬蟲[25]提取每篇論文的關(guān)鍵字(用k表示),并將其添加到aminer-paper.txt中每個(gè)記錄的末尾。在每個(gè)數(shù)據(jù)集中有100個(gè)異常值關(guān)聯(lián)被手動(dòng)注釋。 雅虎!電影。雅虎!電影作為分級(jí)和分類數(shù)據(jù)集的一部分,可以應(yīng)用于異構(gòu)信息網(wǎng)絡(luò)中。這個(gè)數(shù)據(jù)集包括六個(gè)方面的信息,包括電影、演員、電影分級(jí)等。多類型頂點(diǎn)及其之間的多類型關(guān)系可用于分類、聚類或檢測(cè)異常值。評(píng)級(jí)信息可用于預(yù)測(cè)或推薦系統(tǒng)。我們選擇部分?jǐn)?shù)據(jù),包括` lm標(biāo)題、演員和類型進(jìn)行實(shí)驗(yàn),并添加100個(gè)對(duì)象相關(guān)性作為異常相關(guān)性。 7.3. 結(jié)果 在本節(jié)中,我們進(jìn)行了實(shí)驗(yàn),以檢驗(yàn)我們提出的結(jié)構(gòu)內(nèi)容的有效性和效率。我們進(jìn)行了第一次實(shí)驗(yàn),以證明我們提出的方法的性能。我們提取數(shù)據(jù)集中不同數(shù)量的對(duì)象來觀察pout、precision、recall和f-measure。圖2和圖3顯示了隨著對(duì)象數(shù)量的增加,兩個(gè)數(shù)據(jù)集上的結(jié)果。由于我們?cè)趫D2中選擇了前100個(gè)值和相應(yīng)的對(duì)象相關(guān)性作為離群值相關(guān)性,因此jcor rdj在這種情況下等于joutcorrj,這使得精度與 (a)(b) 圖2。aminer和yahoo!上結(jié)構(gòu)2內(nèi)容的pout和f-measure!電影。(選擇前100個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 (a)(b) 圖3。Aminer和Yahoo!上結(jié)構(gòu)2內(nèi)容的pout、precision、recall和f-measure!電影。(選擇前50個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 回憶。另外,pout與精度之和為1。因此,我們只在圖2中提供pout和f-measure。在圖3中,我們選擇前50個(gè)值和相應(yīng)的對(duì)象相關(guān)性。圖3中的召回低于圖2中的召回,因?yàn)槭謩?dòng)標(biāo)注的離群值相關(guān)性數(shù)量與檢測(cè)到的離群值相關(guān)性(即圖3中的joutcorrj?2jcorrdj)不同。aminer中的功能數(shù)量高于yahoo!中的功能數(shù)量。電影,這可能導(dǎo)致更高的精度在aminer。同時(shí),可能需要較長(zhǎng)的時(shí)間才能在胺液中獲得充分的特性。 在第二個(gè)實(shí)驗(yàn)中,我們驗(yàn)證了我們提出的算法的可擴(kuò)展性。在Aminer和Yahoo!電影數(shù)據(jù)集,我們將對(duì)象數(shù)量從1000增加到4000,然后觀察運(yùn)行時(shí)間。圖4顯示,隨著數(shù)據(jù)量的線性增長(zhǎng),執(zhí)行時(shí)間幾乎是線性增長(zhǎng),而不是指數(shù)增長(zhǎng)。然后,我們將處理器的數(shù)量從2更改為8,然后觀察運(yùn)行時(shí)間。圖5表明,隨著處理器數(shù)量的增加,執(zhí)行時(shí)間大大縮短,這意味著我們提出的方法可以執(zhí)行并行計(jì)算。 在第三個(gè)實(shí)驗(yàn)中,我們使用三個(gè)基線算法(cdoutliers[16]、基于查詢的[17]、abcoutliers[26])進(jìn)行了比較實(shí)驗(yàn)。CDoutlier基于聯(lián)合非負(fù)矩陣分解發(fā)現(xiàn)了所有對(duì)象類型的流行社區(qū)分布模式。cdoutlier組作者基于他們的研究區(qū)域分布。也就是說,它只考慮網(wǎng)絡(luò)中的內(nèi)容信息。根據(jù)用戶輸入的查詢,基于查詢的異常值檢測(cè)。在整個(gè)過程中,它考慮的結(jié)構(gòu)信息多于內(nèi)容信息。Abcoutliers計(jì)算所有匹配的群組結(jié)果。它不如基于查詢的算法有效。圖6中的曲線表明 圖4。在aminer和yahoo!上不同數(shù)據(jù)數(shù)量條件下的運(yùn)行時(shí)間比較電影數(shù)據(jù)集。(選擇前100個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 圖5。在aminer和yahoo!上不同處理器數(shù)量條件下的運(yùn)行時(shí)間比較。電影數(shù)據(jù)集。(選擇前100個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 (a)(b)圖6。Aminer和Yahoo!四種異常值檢測(cè)方法的性能比較電影。 structure2內(nèi)容的性能優(yōu)于cdoutlier、query-based和abcoutlier。 在第四個(gè)實(shí)驗(yàn)中,我們驗(yàn)證了該方法的有效性。從圖7的曲線可以看出,結(jié)構(gòu)2內(nèi)容的時(shí)間復(fù)雜度比其他基線算法要低得多。此外,當(dāng)我們插入新數(shù)據(jù)或刪除過時(shí)數(shù)據(jù)時(shí),我們的增量方法不需要從頭計(jì)算相似性。它可以大大降低時(shí)間復(fù)雜度和空間復(fù)雜度。 在第五個(gè)實(shí)驗(yàn)中,我們提供了一個(gè)案例研究來說明什么樣的對(duì)象相關(guān)性應(yīng)該被視為異常相關(guān)性。我們根據(jù)數(shù)據(jù)集的格式對(duì)數(shù)據(jù)進(jìn)行注釋。例如,在aminer中,我們添加了'fty author (a)(b) 圖7。我們建議的結(jié)構(gòu)內(nèi)容和三個(gè)基線算法的運(yùn)行時(shí)間,兩個(gè)數(shù)據(jù)集上的對(duì)象數(shù)不同。 表7.Aminer數(shù)據(jù)集異常關(guān)聯(lián)的案例研究。 論文編號(hào) 作者 關(guān)鍵詞 磷1 A1,A2 k1、k2、k3、k4、k5 磷2 A1,A2 K6、K7、K8、K9、K10 磷3 一1 k1、k2、k3、k4、k5 磷4 一2 K6、K7、K8、K9、K10 磷5 A3,A4 K11、K12、K13、K14、K15 磷6 A5,A6 K11、K12、K13、K14、K15 具有結(jié)構(gòu)相似性但幾乎沒有內(nèi)容相似性的關(guān)聯(lián),并添加另一個(gè)具有內(nèi)容相似性但幾乎沒有結(jié)構(gòu)相似性的作者關(guān)聯(lián)。在前一個(gè)案例中,兩位作者是多篇論文的共同作者,但他們的研究領(lǐng)域完全不同。在后一種情況下,兩位作者的研究領(lǐng)域幾乎相同,但他們從不在論文上合作;谝陨蟽煞N情況,我們?cè)赼miner中注釋數(shù)據(jù)。表7列出了兩種異常值相關(guān)性。例如,aa和aa被認(rèn)為是離群關(guān)聯(lián),因?yàn)樗鼈冊(cè)趦善撐纳蠀f(xié)作,但它們的研究領(lǐng)域完全不同。此外,a(a_)和a(a_)被視為離群關(guān)聯(lián),因?yàn)樗鼈兊难芯款I(lǐng)域相同,但以前從未合作過。我們可以互相推薦,看看他們能否進(jìn)行學(xué)術(shù)交流。1 2 3 45 6 8。結(jié)論 In this paper, we propose an incremental outlier correlation detection method for heterogeneous information networks based on 3-tuples and structure-content difference. The Structure2Content model includes two parts: structure-level and content-level. In these two parts, the 3-tuples and the mirror step are used to measure the closeness degree between target objects. An iterative process and the coverage rate are combined to get su±cient features to represent the target objects in contentlevel. The insertion and deletion process demonstrates that our proposed method does not need to train the data from the beginning when inserting new data or deleting obsoleted data. In addition, using 3-tuples to store the target objects and the corresponding relations can save more space than using the adjacent matrix. Experimental results show that our proposed outlier detection method, Structure2Content, can incrementally discover outlier correlations in heterogeneous information networks. 9. Future Work Future work on highlighting the heterogeneity during the calculating process is needed. For example, it would be interesting to use 3-tuples to represent the relations between di?erent types of objects. Also, we plan to detect outliers and outlier correlations simultaneously. Then, we can carry on comprehensive analysis about single outliers and outlier correlations. And we should think about how to deal with new objects with little information. The work on development of distributed version of the incremental outlier detection algorithm is also needed. Acknowledgments This work is supported by the National Natural Science Foundation of China under grant No. 60903098, the Project of Jilin Provincial Industrial Technology Research and Development (JF2012c016-2), and Graduate Innovation Fund of Jilin University (2016183, 2016184). References 1. F. Angiulli and F. Fassetti, Towards generalizing the uniˉcation with statistical outliers: The gradient outlier factor measure, ACM Trans. Knowl. Discov. Data 10(3) (2016), Article ID: 27. 2. F. Angiulli, F. Fassetti, L. Palopoli and G. Manco, Outlying property detection withnumerical attributes, Data Mining Knowl. Discov. (2013) 1–30. 3. C. C. Aggarwal and S. Sathe, Theoretical foundations and algorithms for outlierensemblesk, ACM SIGKDD Expl. Newslett. 17(1) (2015) 24–47. 4. F. Dufrenois and J. C. Noyer, One class proximal support vector machines, Pattern Recognition 52 (2016) 96–112. 5. F. Chen, C. T. Lu and A. P. Boedihardjo, GLS-SOD: A generalized local statisticalapproach for spatial outlier detection, in Proc. 16th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2010. 6. G. H. Orair, C. H. C. Teixeira, W. Meira Jr., Y. Wang and S. Parthasarathy, Distancebased outlier detection: Consolidation and renewed bearing, in Proc. VLDB Endowment 3(1–2) 2010. 7. R. Gupta and K. Pandey, Density based outlier detection technique, Adv. Intell. Syst. Comput. 433 (2016) 51–58. 8. T. Zhang, R. Ramakrishnan and M. Livny, BIRCH: An e±cient data clustering methodfor very large databases, in ACM SIGMOD Record (ACM, 1996). 9. S. Guha, R. Rastogi and K. Shim, CURE: An e±cient clustering algorithm for largedatabases, in ACM SIGMOD Record (ACM, 1998). 10. G. Karypis, E. H. Han and V. Kumar, Chameleon: Hierarchical clustering using dynamicmodeling, Computer 32(8) (1999) 68–75. 11. T. B. Wu, Y. Cheng, Z. K. Hu, W. P. Xie and Y. L. Liu, A new PLS and bayesianclassiˉcation based online outlier detection method, in Proc. 3rd Int. Conf. Advanced Design and Manufacturing Engineering, 2013. 12. N. Koochakzadeh, K. Kianmehr, J. Jida, I. Lee, R. Alhajj and J. Rokne, Semi-superviseddynamic classiˉcation for intrusion detection, Int. J. Softw. Eng. Knowl. Eng. 20(2) (2010) 139–154. 13. I. S. Sitanggang and D. A. M. Baehaki, Global and collective outliers detection on hotspotdata as forest ˉres indicator in Riau Province, Indonesia, in Proc. 2nd IEEE Int. Conf. Spatial Data Mining and Geographical Knowledge Services, 2015, pp. 66–70. 14. J. Gao, H. B. Cheng and P. N. Tan, Semi-supervised outlier detection, in Proc. 2006 ACM Symp. Applied Computing, 2006, pp. 635–636. 15. F. Rasheed and R. Alhajj, A framework for periodic outlier pattern detection in timeseries sequences, IEEE Trans. Cybernetics 44(5) (2014) 569–582. 16. M. Gupta, J. Gao, C. Aggarwal and J. Han, Community distribution outlier detection inheterogeneous information networks, European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2013, pp. 557–573. 17. H. Zhuang, J. Zhang, G. Brova, J. Tang, H. Cam, X. Yan and J. Han, Mining query-basedsubnetwork outliers in heterogeneous information networks, IEEE Int. Conf. Data Mining, 2014, pp. 1127–1132. 18. D. Pokrajac, N. Reljin, N. Pejcic and A. Lazarevic, Incremental connectivity-based outlierfactor algorithm, in Proc. Int. Conf. Visions of Computer Science BCS International Academic Conference, 2008, pp. 211–224. 19. C. H. Ju and Y. L. Li, An incremental outlier detection model for transactions datastreams, J. Inf. Comput. Sci. 10(1) (2013) 49–59. 20. Y. Sun, J. Han, X. Yan, P. S. Yu and T. Wu, PathSim: Meta path-based top-k similaritysearch in heterogeneous information networks, in VLDB'11, 2011, pp. 992–1003. 21. B. Liu, Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, 2nd edn. (Springer, Berlin, 2011). 22. W. B. Croft, D. Metzler and T. Strohman, Search Engines: Information Retrieval in Practice (Addison-Wesley, 2009). 23. J. Tang, J. Zhang, L. M. Yao, J. Z. Li, L. Zhang and Z. Su, Arnetminer: Extraction andmining of academic social networks, in Proc. 14th ACM SIGKDD Int. Conf. Knowl. Discovery and Data Mining, 2008, pp. 990–998. 24. Yahoo! webscope program, http://webscope.sandbox.yahoo.com. Accessed: 28/01/2016. 25. T. Peng and L. Liu, Focused crawling enhanced by CBP-SLC, Knowl.-Based Syst. 51 (2013) 15–26. 26. M. Gupta, J. Gao, X. F. Yan, H. Cam and J. W. Han, On detecting association-basedclique outliers in heterogeneous information networks, Advances in Social Networks Analysis and Mining, 2013, pp. 108–115.
責(zé)任編輯:德勤鋼鐵網(wǎng) 標(biāo)簽:

熱門搜索

相關(guān)文章

廣告
德勤鋼鐵網(wǎng) |市場(chǎng)分析

結(jié)構(gòu)dqe,結(jié)構(gòu)dq

chanong

|

異構(gòu)網(wǎng)絡(luò)無處不在。人們喜歡從這樣的網(wǎng)絡(luò)中發(fā)現(xiàn)稀有但有意義的物體和模式。無論結(jié)構(gòu)或內(nèi)容相似度如何,相應(yīng)的對(duì)象都可以用于數(shù)據(jù)分析。然而,結(jié)構(gòu)和內(nèi)容之間的主要區(qū)別值得更多關(guān)注。在本文中,我們提出了一種稱為“結(jié)構(gòu)-2-內(nèi)容”的異常相關(guān)性檢測(cè)方法,該方法在結(jié)構(gòu)級(jí)別和內(nèi)容級(jí)別逐步發(fā)現(xiàn)異常相關(guān)性。結(jié)構(gòu)2 的內(nèi)容解決了三個(gè)重要問題: (1)如何衡量目標(biāo)對(duì)象的結(jié)構(gòu)和內(nèi)容相似性?(2)如何確定對(duì)象的代表性特征?(3)添加新數(shù)據(jù)或刪除舊數(shù)據(jù)?如何。為了應(yīng)對(duì)這些挑戰(zhàn),結(jié)構(gòu)2 內(nèi)容應(yīng)用了四種主要技術(shù):(1)使用兩個(gè)矩陣分別保留結(jié)構(gòu)和內(nèi)容相似性;(2)使用三元組;表示對(duì)象之間的接近程度;(3)將鏡像步驟和迭代過程獲得top-K異常值相關(guān)性;(4)僅更新NG 3元組,而不是從頭開始訓(xùn)練所有數(shù)據(jù)。它可以幫助您逐步插入或刪除數(shù)據(jù),而無需使用大量實(shí)驗(yàn)表明,本文提出的方法對(duì)于檢測(cè)異常相關(guān)性具有良好的效果。關(guān)鍵詞:離群值相關(guān)性、異構(gòu)網(wǎng)絡(luò)、結(jié)構(gòu)級(jí)別、內(nèi)容級(jí)別、相似性。

1.簡(jiǎn)介:在分析異構(gòu)信息網(wǎng)絡(luò)中的多類型對(duì)象和多類型關(guān)系時(shí),識(shí)別罕見的、有趣的和顯著的對(duì)象、模式或子圖至少比理解它們要好。

通訊作者. 1013

通用數(shù)據(jù)分布或模型。作為數(shù)據(jù)挖掘領(lǐng)域的一個(gè)重要領(lǐng)域,異常值檢測(cè)可用于提取網(wǎng)絡(luò)中與其他方法顯著不同的對(duì)象、模式或子圖。對(duì)于由多個(gè)節(jié)點(diǎn)和邊組成的異構(gòu)網(wǎng)絡(luò),人們提出了許多方法來識(shí)別異;蚩梢傻膯蝹(gè)頂點(diǎn)和子圖上的頂點(diǎn)[1-4]。例如,在書目網(wǎng)絡(luò)中,如果作者的出版物與其研究領(lǐng)域無關(guān),則他可能是獨(dú)立的局外人。例如,考慮氣候研究中心子網(wǎng)中的異常值:如果Nomad 浮標(biāo)的溫度下降超過10 度,它可能會(huì)發(fā)生故障或經(jīng)歷波濤洶涌的海面。然而,如果多個(gè)游牧浮標(biāo)在短時(shí)間內(nèi)在不同地點(diǎn)表現(xiàn)出相同的現(xiàn)象,那就值得懷疑了。這意味著這些地區(qū)正在發(fā)生極端天氣。

在本文中,我們提出了一種稱為“結(jié)構(gòu)2 內(nèi)容”的增量異常相關(guān)性檢測(cè)方法。該方法的主要思想是分別計(jì)算目標(biāo)對(duì)象在結(jié)構(gòu)和內(nèi)容層面的相似度。測(cè)量結(jié)構(gòu)相似性和內(nèi)容相似性之間的差異,并獲得異常相關(guān)性。三元組用于表示兩個(gè)對(duì)象之間的關(guān)系。該對(duì)象可以是目標(biāo)對(duì)象或表示目標(biāo)對(duì)象的特征。兩個(gè)物體之間的重量是它們之間的接近度。我們還提出了一個(gè)鏡像步驟來獲得兩個(gè)對(duì)象之間的間接EECT。此外,由于參數(shù)加載方法可能會(huì)導(dǎo)致可用性問題,因此我們提出了一個(gè)稱為覆蓋率的概念,以在不使用太多參數(shù)的情況下獲得足夠的特征來表示目標(biāo)對(duì)象。最后,我們對(duì)結(jié)構(gòu)和內(nèi)容水平之間異常相關(guān)性的差異進(jìn)行了排名。還顯示了插入新數(shù)據(jù)和刪除舊數(shù)據(jù)時(shí)的增量過程。此過程僅更新一部分?jǐn)?shù)據(jù),而不是從頭開始訓(xùn)練所有數(shù)據(jù)。我們用Aminer 和Yahoo! 做了一些實(shí)驗(yàn)。結(jié)構(gòu)2 電影用于驗(yàn)證內(nèi)容模型的E 有效性。實(shí)驗(yàn)結(jié)果表明,結(jié)構(gòu)內(nèi)容可以有效發(fā)現(xiàn)異常相關(guān)性。

在異構(gòu)網(wǎng)絡(luò)中,不僅識(shí)別單個(gè)異常值,而且檢測(cè)異常值之間的相關(guān)性也非常重要。所有對(duì)象在結(jié)構(gòu)或內(nèi)容上都可能是正常的。然而,檢測(cè)單個(gè)異常值可能會(huì)忽略對(duì)象之間的相關(guān)性。從不同的角度來看,例如在結(jié)構(gòu)和內(nèi)容層面上,它們的相似之處也可能有很大不同。此外,異構(gòu)網(wǎng)絡(luò)中異常值的相關(guān)性也不同于同質(zhì)網(wǎng)絡(luò)中異常值的相關(guān)性。在異構(gòu)網(wǎng)絡(luò)中,與異常相關(guān)的兩個(gè)對(duì)象可能屬于同一類型,但在整個(gè)計(jì)算過程中必須考慮多類型對(duì)象和多類型關(guān)系。然而,在同構(gòu)網(wǎng)絡(luò)中,具有異常相關(guān)性的兩個(gè)對(duì)象不具有多類型關(guān)系,并且可能僅基于統(tǒng)計(jì)數(shù)據(jù)及其值而相關(guān)。

本文的貢獻(xiàn)可總結(jié)如下。

(1)詳細(xì)研究異構(gòu)網(wǎng)絡(luò)的結(jié)構(gòu)和內(nèi)容差異,提出異構(gòu)網(wǎng)絡(luò)中異常相關(guān)性檢測(cè)的漸進(jìn)方法。

(2) 三元組用于表示多種類型的對(duì)象及其對(duì)應(yīng)關(guān)系。

(3)結(jié)合鏡像步驟和迭代計(jì)算過程以獲得目標(biāo)對(duì)象在內(nèi)容級(jí)別的特征表示。

(4) 插入和刪除過程逐步展示了如何獲得異常關(guān)聯(lián)。

(5)在兩個(gè)真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)證明了該方法的有效性。

本文的其余部分組織如下。相關(guān)工作將在第二節(jié)中討論。 2. 第3 節(jié)介紹本文使用的定義和概念。我們提出的結(jié)構(gòu)內(nèi)容模型的總體框架也在第2 節(jié)中描述。三。第4 節(jié)描述了如何使用三元組和鏡像步驟來測(cè)量結(jié)構(gòu)級(jí)別的相似性。第5 節(jié)描述了如何使用三元組和迭代過程來測(cè)量?jī)?nèi)容級(jí)別的相似性。第6 節(jié)描述了如何識(shí)別離群值相關(guān)性以及如何插入新數(shù)據(jù)和刪除舊數(shù)據(jù)。我們進(jìn)行了多次綜合實(shí)驗(yàn),以在幾秒鐘內(nèi)評(píng)估所提出方法的效率和有效性。 7. 提供實(shí)驗(yàn)設(shè)置、性能指標(biāo)、數(shù)據(jù)集和結(jié)果。第8 節(jié)得出我們的結(jié)論。第9 節(jié)描述了未來的工作。

2.相關(guān)工作異常值檢測(cè)方法已經(jīng)被研究了很長(zhǎng)時(shí)間。大多數(shù)傳統(tǒng)方法是基于統(tǒng)計(jì)的[1, 5]、基于鄰近性的[6, 7]、基于聚類的[8-10]、基于分類的[11, 12]和異常值收集[13]。高等人[14]使用了一種新的目標(biāo)函數(shù),使用標(biāo)記和未標(biāo)記的數(shù)據(jù)進(jìn)行半監(jiān)督異常檢測(cè)。 Rasheed和Alhajj[15]提出了一種基于時(shí)間序列周期性的sux三叉樹算法的離群模式檢測(cè)框架。處理的對(duì)象屬于同一類型。因此,他們提出的方法只能用于同質(zhì)信息網(wǎng)絡(luò)。

近年來,隨著異構(gòu)網(wǎng)絡(luò)的出現(xiàn),整個(gè)網(wǎng)絡(luò)中對(duì)象的類型和關(guān)系呈現(xiàn)多樣化。最初針對(duì)同構(gòu)網(wǎng)絡(luò)的方法不適用于異構(gòu)網(wǎng)絡(luò)。異構(gòu)網(wǎng)絡(luò)的離群點(diǎn)檢測(cè)方法有兩種:?jiǎn)坞x群點(diǎn)和子圖離群點(diǎn)。 Gupta 等人[16]提出了一個(gè)新概念,稱為社區(qū)分布異常(cdoutliers)。它使用非負(fù)矩陣分解來檢測(cè)社區(qū)分布不遵循其他常見社區(qū)分布模式的對(duì)象。他們還在異構(gòu)網(wǎng)絡(luò)中以單個(gè)頂點(diǎn)的形式提取異常值。 Zhuang等人[17]提出了一種基于查詢的異構(gòu)網(wǎng)絡(luò)子網(wǎng)異常檢測(cè)方法。他們定義了子網(wǎng)相似性的概念,并根據(jù)異常值對(duì)子網(wǎng)進(jìn)行了排名。異常值由子圖表示。

此外,許多研究人員還深入研究了一些增量異常檢測(cè)方法,以降低時(shí)間復(fù)雜度和空間復(fù)雜度。 Pokrajac 等人[18]開發(fā)了一種增量異常檢測(cè)方法。他們提出了一個(gè)稱為基于連接的異常因子(cof) 的概念,并展示了如何在每次插入或刪除時(shí)更新cof。 Ju和Li[19]提出了一種增量方法IODM(增量異常值檢測(cè)模型)。他們挖掘數(shù)據(jù)集中的關(guān)聯(lián)規(guī)則并增量更新關(guān)聯(lián)規(guī)則倉庫(ARW)以檢測(cè)異常交易。增量過程只更新部分?jǐn)?shù)據(jù),而不是從頭開始訓(xùn)練所有數(shù)據(jù),可以節(jié)省大量時(shí)間和空間。

三。問題定義我們從一些正式的問題定義開始,并提出了一些新概念。接下來,我們概述結(jié)構(gòu)2內(nèi)容的總體框架。本章介紹了主要方法和完整的理論。 4-6.為了陳述一個(gè)完整的理論,我們需要以下概念:

定義1(異構(gòu)信息網(wǎng)絡(luò)[20])。假設(shè)給定一個(gè)有向圖G=_V;E;'A;R_。 V 是節(jié)點(diǎn)集,E 是邊集。和是兩個(gè)實(shí)體類型映射函數(shù)。 _v_2 a 表示每個(gè)實(shí)體v 對(duì)應(yīng)a 中的特定實(shí)體類型。 e_2 r表示每條邊e對(duì)應(yīng)屬于r的某種關(guān)系。如果節(jié)點(diǎn)類型為jaj1或邊類型為jrj1,則認(rèn)為是異構(gòu)信息網(wǎng)絡(luò),否則認(rèn)為是同構(gòu)信息網(wǎng)絡(luò)。

在現(xiàn)實(shí)世界中,存在著許多異構(gòu)的信息網(wǎng)絡(luò)實(shí)例。例如,書目網(wǎng)絡(luò)具有四種類型的節(jié)點(diǎn):文章、作者、術(shù)語和位置,以及表示出版物到出版物、寫作到寫作和引用到引用關(guān)系的多個(gè)邊。電影網(wǎng)絡(luò)有四種類型的節(jié)點(diǎn):電影、演員、流派和語言,以及代表它們之間關(guān)系的邊。

定義2(前一個(gè)節(jié)點(diǎn)和下一個(gè)節(jié)點(diǎn))。給定一個(gè)無向圖g=_v;e_。 A;B 2 V.A 和B 通過G 連接,得到_A;B_2 E。節(jié)點(diǎn)A 被訪問,但節(jié)點(diǎn)B 未被訪問。然后我們認(rèn)為a是b的前驅(qū)(a可以用^b_表示,b稱為a(b可以用^)表示)。

定義3(異常相關(guān))。假設(shè)異構(gòu)網(wǎng)絡(luò)有n個(gè)對(duì)象作為輸入,結(jié)構(gòu)層和內(nèi)容層中任意兩個(gè)對(duì)象的相似度分別用si,j和ci,j表示。計(jì)算si;j 和ci;j 之間的差。找出si;j 和ci;j 之間差異的前k 個(gè)值。與前k 個(gè)差異相對(duì)應(yīng)的對(duì)象相關(guān)性_i;j_ 被視為異常相關(guān)性。

與同構(gòu)網(wǎng)絡(luò)中的異常相關(guān)性檢測(cè)相比,異構(gòu)網(wǎng)絡(luò)中的異常相關(guān)性檢測(cè)是不同的。在同構(gòu)網(wǎng)絡(luò)中,離群值相關(guān)性只能根據(jù)兩個(gè)對(duì)象之間的統(tǒng)計(jì)來獲得。離群值相關(guān)性之間沒有結(jié)構(gòu)或內(nèi)容信息。然而,在異構(gòu)網(wǎng)絡(luò)中,多種類型的對(duì)象和多種類型的關(guān)系的存在使得檢測(cè)異常相關(guān)性變得更加復(fù)雜。

定義4(啟用的功能)。如果一個(gè)特征X被賦予了一個(gè)詞項(xiàng)權(quán)重值,則稱其為有效特征,否則稱其為無效特征。

定義5(范圍)。有效特征與特征總數(shù)的比值定義為覆蓋率,表示為cr。

圖1 顯示了我們建議的結(jié)構(gòu)2 內(nèi)容框架。我們從兩個(gè)方面計(jì)算異構(gòu)信息網(wǎng)絡(luò)中對(duì)象之間的相似度。圖1。結(jié)構(gòu)2 內(nèi)容模型的總體框架。

看法。第一個(gè)是對(duì)象之間結(jié)構(gòu)層面的相似性,如圖1 左側(cè)所示。第二個(gè)是對(duì)象之間內(nèi)容級(jí)別的相似性,如圖1 右側(cè)所示。接下來,我們利用矩陣s 和c 之間的較大差異來獲得前k 個(gè)離群值相關(guān)性。

4.結(jié)構(gòu)層組件在本節(jié)中,我們從結(jié)構(gòu)角度計(jì)算兩個(gè)對(duì)象之間的相似度。此外,Structure2content 模型的結(jié)構(gòu)級(jí)組件是增量過程。當(dāng)新數(shù)據(jù)出現(xiàn)時(shí),無需從頭開始計(jì)算,大大降低了時(shí)間復(fù)雜度。在幾秒鐘內(nèi)查看組合步驟。分別為4.1和鏡像步驟4.2。三元組用于計(jì)算異構(gòu)網(wǎng)絡(luò)中任意兩個(gè)對(duì)象之間的結(jié)構(gòu)關(guān)系。

4.1. 組合程序

給定一個(gè)由多種類型的對(duì)象及其對(duì)應(yīng)關(guān)系組成的異構(gòu)網(wǎng)絡(luò)G。在異常值檢測(cè)領(lǐng)域,人們從網(wǎng)絡(luò)結(jié)構(gòu)和網(wǎng)絡(luò)內(nèi)容的角度進(jìn)行了異常值檢測(cè)的研究。然而,很少有研究從網(wǎng)絡(luò)結(jié)構(gòu)和內(nèi)容信息的差異角度檢測(cè)異常相關(guān)性。此外,當(dāng)插入新數(shù)據(jù)或刪除舊數(shù)據(jù)時(shí),傳統(tǒng)的異常值檢測(cè)方法通常從頭開始計(jì)算對(duì)象的異常值。因此,我們首先提出一種增量異常相關(guān)檢測(cè)方法來計(jì)算結(jié)構(gòu)級(jí)別的對(duì)象相似度。

眾所周知,異構(gòu)網(wǎng)絡(luò)包含許多不同類型的對(duì)象。某些類型的對(duì)象被用作計(jì)算接近度的目標(biāo)。目標(biāo)對(duì)象以多條記錄的形式表示。例如,在書目網(wǎng)絡(luò)中,作者可以被視為目標(biāo)對(duì)象。這些記錄以共同作者的身份出現(xiàn)。電影網(wǎng)絡(luò)可能會(huì)將演員視為目標(biāo)。這些唱片都有聯(lián)合主演。結(jié)構(gòu)層的最終相似度存儲(chǔ)在矩陣S中,如下所示。 2s13 2s12;11 s12;22 s21;nn 3SSNN=664S.27775=4…;1…;2 SN…;N 56S.666SS777

Serial Number; Serial Number; 為了逐步獲得異常值相關(guān)性,異構(gòu)網(wǎng)絡(luò)中的感興趣對(duì)象以3元組的形式存儲(chǔ),用_oi; eij; oj_表示。 oi和oj是目標(biāo)對(duì)象,eij表示oi和oj之間的接近程度。

表格1。已記錄十個(gè)案例,其中包括幾位作者。

ID

共同作者ID

ID

共同作者ID

磷1

A1;A2;A3;A4

林6 A2;A8;A9

磷2

A1;A2;A4;A5

磷7

a2;a4;a5;a10

磷3

A4;A5;A6;A7

林8 A3; A6; A11

磷4

A1;A2;A4;A6

磷9

A1;A2;A3;A4

磷5

A2;A8

磷10

A1;A3;A6;A7

表2. 從表1 生成的所有三個(gè)元組。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三項(xiàng)式

f1,1,2g f1,1,2g f4,1,5g f1,1,2g f2,1,8g f2,1,8g f2,1,4g f3,1,6g f1,1,2g f1,1,3g f1,1,3g f1,1,4g f4,1,6g f1,1,4g f2,1,9g f2,1,5g f3,1,11g f1,1,3g f1,1,6g f1,1,4g f1,1,5g f4,1,7g f1,1,6g f8,1,9g f2,1,10g f6,1,11g f1,1,4g f1,1,7g f2,1,3g f2,1,4g f5,1,6g f2,1,4g f4,1,5g f2,1,3g f3,1,6G F 2,1,4g F 2,1,5g F 5,1,7g F 2,1,6g F 4,1,10g F 2,1,4g F 3,1,7g

3,1,4 4,1,5 6,1,7 4,1,6 5,1,10 3,1,4 6,1,7

F G F G F G F G F G F G F G F G G F G

結(jié)構(gòu)層oi和oj之間的相似度包括連接步驟和鏡像步驟兩部分,并且使用式(1)計(jì)算如下:

soi;oj=sdoi;oj_smoi;oj;_1_

這里,sdo;是oi和oj之間的直接類比。例如,表1有10條記錄,代表10個(gè)文章ID和對(duì)應(yīng)的作者ID。如表2所示,我們使用三元組來表示兩位作者之間的關(guān)系。根據(jù)直接合著關(guān)系,將三個(gè)元組合并(如表3所示)并I oJ

使用等式(2)計(jì)算sdo。我

X iri;J

sdoi;oj=sdoj;oi=n;_2_跟我來

其中n 是數(shù)據(jù)集中包含oi 或oj 的記錄總數(shù)。式(2)的條件是i必須小于j,僅僅考慮直接相似性是不夠的。用于計(jì)算增量過程的間接相似性和鏡像步驟將在下一節(jié)中討論。

4.2. 鏡像步驟

在本節(jié)中,我們提出了一種稱為鏡像步驟的方法,該方法計(jì)算兩個(gè)對(duì)象之間的間接相似度并逐步檢索異常值。當(dāng)我們得到表3中的三個(gè)元組后,我們將這三個(gè)元組鏡像到原始元組的另一側(cè)。

表3. 合并后的所有3 元組。

f1,0.25,2g f1,0.5,3g f1,0.57,4g f1,0.14,5g f1,0.29,6g f1,0.17,7g

F2、0.22、3G

F 2,0.625,4g F 2,0.25,5g F 2,0.1,6g F 2,0.29,8g F 2,0.14,9g F 2,0.14,10g

f3,0.25,4g f4,0.5,5g f5,0.17,6g f3,0.33,6g f4,0.29,6g f5,0.25,7g

f3,0.2,7g f4,0.14,7g f5,0.33,10g f3,0.25,11g f4,0.17,10g

F6,0.5,7g F8,0.5,9g F6,0.25,11g

表4. 鏡像表3 中的3 元組。

F2,0.25,1g f3,0.5,1g f4,0.57,1g f5,0.14,1g f6,0.29,1g f7,0.17,1g

F3.0.22,2克

f4,0.625,2g f5,0.25,2g f6,0.1,2g f8,0.29,2g f9,0.14,2g

10,0.14,2

f4,0.25,3g f5,0.5,4g f6,0.17,5g f6,0,33,3g f6,0.29,4g f7,0.25,5g

f7,0.2,3g f7,0.14,4g f10,0.33,5g f11,0.25,3g f10,0.17,4g

F7,0.5,6g F9,0.5,8g F11,0.25,6g

F/G型

3元組。例如,表3中的3元組f1,0.25,2g變?yōu)楸?中的3元組f1,0.25,1g。測(cè)量OA 和O 的緊密度并僅提取包含作者的記錄會(huì)導(dǎo)致信息過多丟失,因?yàn)楹雎粤碎g接協(xié)作。例如,A 和A 與A 合作,A 和A 合作發(fā)表多篇論文,A 和A 與A 合作發(fā)表一篇論文。當(dāng)然,A與A之間的親密度高于A與A之間的親密度。我們使用方程(3)來計(jì)算鏡像步驟中兩個(gè)對(duì)象之間的間接相似度。 3 63 6 3 6 1247 113 11 63 6 3 11T

smoi;oj=smoj;oi=xei;kek;j;_3_K 1

這里,t是具有間接合著者關(guān)系的作者數(shù)量。這是smo 中三元組數(shù)量的一半。例如,使用表3和表4中的三個(gè)元組計(jì)算OA和OIN的結(jié)構(gòu)水平之間的相似度如下。此外,算法1還描述了一種計(jì)算結(jié)構(gòu)層中對(duì)象之間相關(guān)性的算法。我是J3 6

SO3;O6=SDO3;O6_Smo3;O6

0:33_e3;1e1;6_e3;2e2;6_e3;4e4;6_e3;7e7;6_e3;11e11:6_

0:33_0:5 0:29_0:22 0:1_0:25 0:29_0:2 0:5_0:25 0:25_0:732:

0:732:

5. 內(nèi)容級(jí)組件

僅僅考慮異構(gòu)網(wǎng)絡(luò)上的鏈路結(jié)構(gòu)是不準(zhǔn)確和不全面的。在本節(jié)中,我們提出了一種迭代方法,該方法結(jié)合三元組來計(jì)算內(nèi)容層中對(duì)象之間的接近度。 ContentLevel組件使用其他類型的對(duì)象來表示目標(biāo)對(duì)象的特征。例如,在書目網(wǎng)絡(luò)中,關(guān)鍵字可以被視為作者的特征。在電影網(wǎng)絡(luò)中,類型可以被視為演員的特征。因此,內(nèi)容層面上的對(duì)象之間的緊密度存儲(chǔ)在矩陣C中如下: CNN=62646CCC…N1277735=62664CC12…;111 CC21…;222 CCN12…;NNN 57377;C

中國(guó)中國(guó);

其中,ci;j表示對(duì)象oi和oj之間的內(nèi)容級(jí)別相似度。以下是迭代計(jì)算ci;j 的方法。與矩陣S中的si;j類似,特征及其對(duì)應(yīng)關(guān)系由三個(gè)元組表示(表示為_ti;rij;tj_,如表5所示)。在書目網(wǎng)絡(luò)中,ti和tj代表目標(biāo)對(duì)象。特征對(duì)象rij 是ti 和tj 之間的接近度。表5 列出了所有三個(gè)元組。還需要鏡像步驟來獲得任意兩者之間的最終接近度。

表5.10 論文ID 和相應(yīng)關(guān)鍵字的示例。

ID

關(guān)鍵詞

ID

關(guān)鍵詞

磷1

A;B;C;H

磷6

G;I;K;L

磷2

C;D;E

磷7

C;F;G;我

磷3

A;C;F;G

磷8

C;D;E;I;J

磷4

C;D;I;J

磷9

A;C;D

磷5

G;我

磷10

A;B;D;E

表6. 從表5 生成的所有三個(gè)元組。

ID

p1 p2 p3 p4 p5 p6 p7 p8 p9 p10

三項(xiàng)式

FA, 1, BG-FC, 1, DG-FA, 1, CG-FC, 1, DG-FA, 1, GG-FG, 1, IG-FC, 1, FG-FC, 1, DG-FA, 1,CG-FA,1,BG-FA,1,CG-FC,1,EG-FA,1,FG-FC,1,IG-FA,1,IG-FA,1,BG-FC,1, GG-FC,1,EG-FA,1,DG-FA,1,CG-FA,1,CG-FC,1,LG-FC,1,1,1,ig-FC,1,1,1, 1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1 ig-fc,1,dg-fa,1,eg-fb,1 ,cg-fc,1,fg-fd,1,ig-fi,1,kg-ff,1,ggfc,1,jg fb,1,dg

FB,1,汞

fc,1,gg fd,1,jg

FI,1,LG FF,1,IG FD,1,EG

FB,1,示例

FC,1,汞

FF、1、GG FI、1、JG

fk,1,lg fg,1,ig fd,1,ig fd,1,jg fe,1,ig fe,1jg fi,1,jg

FD,1,示例

特征。假設(shè)作者ap 發(fā)表論文p1 和p2,并使用式(4)計(jì)算與ap 直接相關(guān)的關(guān)鍵詞q 的權(quán)重項(xiàng)。

WPQ=N_P_D_PQ_Log_N_S;_4_K 琳琳Q1

這里,n_p_是作者ap發(fā)表的論文數(shù)量。 d_pq_是AP發(fā)表的論文中出現(xiàn)的關(guān)鍵詞的Q個(gè)數(shù)。因此,AP發(fā)表的文章中出現(xiàn)的關(guān)鍵詞越多,這些關(guān)鍵詞在AP的詞權(quán)重中體現(xiàn)得越清晰。 k_p_是作者ap發(fā)布的關(guān)鍵詞總數(shù)。 ns 是網(wǎng)絡(luò)中的論文總數(shù)。 p_q_ 是包含關(guān)鍵字p_q_ 的論文數(shù)量。也就是說,如果某個(gè)關(guān)鍵詞在一個(gè)集合中的多篇論文中頻繁使用,則不認(rèn)為它特別代表該類型的論文。例如,“關(guān)鍵字\數(shù)據(jù)挖掘”是一個(gè)廣泛的研究領(lǐng)域。如果作者發(fā)表了包含此關(guān)鍵字的論文,您可能不知道該論文涵蓋的研究領(lǐng)域。隨著關(guān)鍵字變得更加具體,例如時(shí)間異常檢測(cè)和異常相關(guān)性檢測(cè),可以用術(shù)語權(quán)重更具體地表達(dá)特征。因此,WPC=2log6 2 710_=0:067:1

使用術(shù)語權(quán)重值指定的特征稱為有效特征。與目標(biāo)對(duì)象直接相關(guān)的功能將添加到啟用的功能集中。將直接相關(guān)的屬性應(yīng)用于目標(biāo)對(duì)象是不夠的。與目標(biāo)對(duì)象間接相關(guān)的特征也應(yīng)該使用術(shù)語權(quán)重來分配。直接獲得與作者相關(guān)的關(guān)鍵詞的術(shù)語權(quán)重后,我們找到有效特征的后代節(jié)點(diǎn),并為無效特征分配術(shù)語權(quán)重值。然后,將無效特征添加到有效特征集中,直到CR達(dá)到80%。一旦CR達(dá)到80%,我們相信這些特征就可以用于內(nèi)容級(jí)別的相似度計(jì)算。由于圖可能包含圓形,因此我們可以使用輔助數(shù)組來標(biāo)記每個(gè)頂點(diǎn),并防止圖遍歷算法出現(xiàn)在循環(huán)內(nèi)部。迭代計(jì)算的過程如下。

wpq=wp^q rq^q;_5_

這里,rq^q 是節(jié)點(diǎn)q 與其前一個(gè)節(jié)點(diǎn)^q 之間的接近度,如上所述。 wp^q 是目標(biāo)節(jié)點(diǎn)ap 的^q 項(xiàng)的權(quán)重。如果所有目標(biāo)對(duì)象的覆蓋率滿足要求,則可以使用余弦相似度計(jì)算內(nèi)容級(jí)別的相似度,并將其存儲(chǔ)在上面的矩陣C中。算法2描述了計(jì)算內(nèi)容級(jí)相關(guān)性的算法如下。

6. 用于檢測(cè)離群值相關(guān)性的結(jié)構(gòu)2內(nèi)容模型

在本節(jié)中,我們介紹如何使用Structure2content 模型檢測(cè)異常關(guān)聯(lián)(第6.1 節(jié))。第6.2 節(jié)和第6.3 節(jié)描述了當(dāng)新數(shù)據(jù)插入數(shù)據(jù)集中時(shí)如何更新現(xiàn)有數(shù)據(jù),以及如何丟棄一些舊數(shù)據(jù)。

6.1. 異常相關(guān)檢測(cè)流程

根據(jù)第2節(jié)的描述。結(jié)構(gòu)和內(nèi)容級(jí)別的相似性分別存儲(chǔ)在矩陣S 和C 中。接下來計(jì)算S和C的Frobenius范數(shù),即JJSJJF和JJCJJF。 jjjf 是矩陣的Frobenius 范數(shù):jj jjf pms_。在S和C相同數(shù)量級(jí)的情況下,結(jié)構(gòu)層面的相似性和內(nèi)容層面的相似性是等價(jià)的。因此,S 和C 的Frobenius 規(guī)范是相同的。首先,將jjsjjf 除以jjjjf 即可得到參數(shù)。接下來,將矩陣C 的每個(gè)元素乘以參數(shù),使得jjsjjf 與jjjjf 相同。矩陣mos 用于存儲(chǔ)s c 的絕對(duì)值,其_i;j_ 項(xiàng)是每個(gè)有序相關(guān)性_i;j_ 的s i;j c i;j 的絕對(duì)值。每個(gè)對(duì)象之間的相關(guān)性差異被存儲(chǔ)在MOS中,可以找到兩個(gè)對(duì)象在結(jié)構(gòu)層面和內(nèi)容層面上的最大差異。 mos的top-k值意味著兩個(gè)目標(biāo)對(duì)象的結(jié)構(gòu)和內(nèi)容之間存在最大差異。在整個(gè)異構(gòu)網(wǎng)絡(luò)中,相應(yīng)對(duì)象的相關(guān)性被視為離群相關(guān)性。 n2Mn1=2

6.2. 插入

結(jié)構(gòu)2 在內(nèi)容模型插入過程中,在將一組新記錄插入到原始數(shù)據(jù)集中后,必須同時(shí)更新矩陣S和C。假設(shè)要插入一組包含多類型對(duì)象和對(duì)應(yīng)關(guān)系的記錄,并且插入的目標(biāo)對(duì)象也用三元組表示。整個(gè)插入過程包括兩個(gè)部分:(1)插入新的對(duì)象相關(guān)性,(2)更新現(xiàn)有的結(jié)構(gòu)級(jí)和內(nèi)容級(jí)相似性。插入新對(duì)象關(guān)聯(lián)時(shí)的計(jì)算過程如上所述。如果插入的對(duì)象關(guān)聯(lián)已存在于原始數(shù)據(jù)集中,我們首先使用新的對(duì)象關(guān)聯(lián)來計(jì)算結(jié)構(gòu)級(jí)別的相似度。插入的目標(biāo)對(duì)象由三元組表示,從而產(chǎn)生所有對(duì)象依賴關(guān)系的最終表示。增量部分

INCO;使用公式(1)計(jì)算。例如,插入的記錄為fa;a;ag。新記錄的對(duì)象依賴關(guān)系為fa;ag、fa;ag、fa;ag。 a和a之間的直接相似度(用s incdo;_表示)為1=1/40:143。包括aa、ais在內(nèi)共有7條記錄。白熾燈的e輸入為1=7=0:143。使用鏡像步驟的間接相似性(表示為s i oJ1361336163 6 i oJ7 3 6 31 16)

incmo;_ 是e inc 乘以e inc,等于1=1/4 0:02。在這種情況下,增量部分s inco; 等于s incdo; 加上s incmo;最終結(jié)構(gòu)層面的相似度為i oJ31 1649 3o6 3o6 3o6。

incoplus 即=0:732_0:143_0:02=0:877.3o6 3o63o6

6.3. 刪除

在實(shí)際應(yīng)用中,除了插入新記錄外,還需要?jiǎng)h除一些舊的數(shù)據(jù)對(duì)象。刪除這些舊記錄時(shí),必須消除合并和鏡像步驟引入的相似性。例如,刪除表1中的一條記錄(如p)。我們不需要重新計(jì)算數(shù)據(jù)集中的所有數(shù)據(jù),而是需要?jiǎng)h除表2 的第三列并更新包含a;a;a a 和a a 的所有三個(gè)元組。類似地,在計(jì)算內(nèi)容層面的相似度時(shí),特征之間的相似度的計(jì)算方式與上述相同?梢缘孬@得目標(biāo)對(duì)象之間的相似度。 3456 7

7.實(shí)驗(yàn)與結(jié)果

眾所周知,由于缺乏基本事實(shí),異常值評(píng)估一直是一個(gè)難題。在本節(jié)中,我們定義一個(gè)稱為pout 的異常值度量來評(píng)估異構(gòu)網(wǎng)絡(luò)中的異常值相關(guān)性(第7.1 節(jié))。精確率和召回率也用作性能指標(biāo)(第7.1 節(jié))。接下來,使用兩個(gè)數(shù)據(jù)集aminer 和yahoo!this movie 來驗(yàn)證所提出的結(jié)構(gòu)2(第7.2 節(jié))的內(nèi)容有效性。在本文的其余部分中,我們進(jìn)行了一些實(shí)驗(yàn),以驗(yàn)證在異構(gòu)網(wǎng)絡(luò)中挖掘離群值相關(guān)性(秒)時(shí),計(jì)算結(jié)構(gòu)級(jí)別和內(nèi)容級(jí)別之間的顯著區(qū)別是否成立。 7.3)。

7.1. 績(jī)效指標(biāo)

為了測(cè)試我們提出的異常相關(guān)檢測(cè)方法的質(zhì)量,設(shè)計(jì)了一種新的性能指標(biāo),即pout。 pout 可以測(cè)量錯(cuò)誤標(biāo)記或丟失的對(duì)象關(guān)聯(lián)的數(shù)量。 “標(biāo)記為錯(cuò)誤”表示該對(duì)象的依賴關(guān)系正常

數(shù)據(jù),但標(biāo)記為異常相關(guān)性。\“缺少”意味著對(duì)象相關(guān)性應(yīng)該是離群相關(guān),但它不存在于Top-K離群相關(guān)集中。錯(cuò)誤標(biāo)記的離群值相關(guān)性的數(shù)量用w表示。離群值檢測(cè)過程中丟失的離群值相關(guān)性的數(shù)量用m表示。outcorr是數(shù)據(jù)集中手動(dòng)注釋的總離群值相關(guān)性。相應(yīng)地,我們使用等式(6)計(jì)算出:pout?jw_m j 100%:_6_ 2 奧科爾 與另一種流行的評(píng)估度量(稱為準(zhǔn)確性)相反,pout使用了兩種相反的情況:真-負(fù)和假-正,來測(cè)試在檢測(cè)過程中是否識(shí)別了所有可能的異常值相關(guān)性。另外兩個(gè)常見的指標(biāo),精度和召回,也適用于重新評(píng)估我們提出的檢測(cè)模型的可用性[21]。異常值相關(guān)性檢測(cè)的精度是被指定為Top-K異常值相關(guān)性的對(duì)象相關(guān)性的分?jǐn)?shù),它衡量了拒絕正常對(duì)象相關(guān)性的效果;貞浭怯墒謩(dòng)注釋數(shù)據(jù)分配的對(duì)象相關(guān)性的分?jǐn)?shù),它測(cè)量了在所有異常相關(guān)性結(jié)束時(shí)的表現(xiàn)。因此,精度和召回使用公式計(jì)算。(7)和(8)如下:精度為1/4 J J J WJ 100%;_7_科爾德科爾德科爾德 召回1/4 J J WJ 100%8_奧科爾 其中corrd是Top-K離群值相關(guān)性中的一組對(duì)象相關(guān)性。outcorr是數(shù)據(jù)集中手動(dòng)注釋的總離群值相關(guān)性。f-measure[22]作為精度和召回的調(diào)和平均值,也用于測(cè)量我們方法的性能。用式(9)計(jì)算: F測(cè)度γ2_精度_召回;γ9γ1 精確召回 其中是重新考慮精確性和召回的相對(duì)重要性的權(quán)重。顯然,如果大于1,那么召回值比精度值更重要。在本文中,被賦予一個(gè)常數(shù)1。 7.2. 數(shù)據(jù)集集合 我們使用兩個(gè)真實(shí)的數(shù)據(jù)集進(jìn)行實(shí)驗(yàn):Aminer[23]和Yahoo!電影[24]。 氨基。我們從aminer生成數(shù)據(jù),aminer是一個(gè)書目異構(gòu)信息網(wǎng)絡(luò)。它主要由三部分組成,分別是阿明的作者、阿明的論文作者和阿明的合著者。它擁有1712433位作者和2092356篇論文,涵蓋計(jì)算機(jī)科學(xué)的不同領(lǐng)域。有四種類型的節(jié)點(diǎn):論文、作者、地點(diǎn)和術(shù)語,以及構(gòu)建整個(gè)異構(gòu)信息網(wǎng)絡(luò)的幾種邊緣。為了更準(zhǔn)確地檢測(cè)異常值,對(duì)原始數(shù)據(jù)集進(jìn)行了補(bǔ)充。使用爬蟲[25]提取每篇論文的關(guān)鍵字(用k表示),并將其添加到aminer-paper.txt中每個(gè)記錄的末尾。在每個(gè)數(shù)據(jù)集中有100個(gè)異常值關(guān)聯(lián)被手動(dòng)注釋。 雅虎!電影。雅虎!電影作為分級(jí)和分類數(shù)據(jù)集的一部分,可以應(yīng)用于異構(gòu)信息網(wǎng)絡(luò)中。這個(gè)數(shù)據(jù)集包括六個(gè)方面的信息,包括電影、演員、電影分級(jí)等。多類型頂點(diǎn)及其之間的多類型關(guān)系可用于分類、聚類或檢測(cè)異常值。評(píng)級(jí)信息可用于預(yù)測(cè)或推薦系統(tǒng)。我們選擇部分?jǐn)?shù)據(jù),包括` lm標(biāo)題、演員和類型進(jìn)行實(shí)驗(yàn),并添加100個(gè)對(duì)象相關(guān)性作為異常相關(guān)性。 7.3. 結(jié)果 在本節(jié)中,我們進(jìn)行了實(shí)驗(yàn),以檢驗(yàn)我們提出的結(jié)構(gòu)內(nèi)容的有效性和效率。我們進(jìn)行了第一次實(shí)驗(yàn),以證明我們提出的方法的性能。我們提取數(shù)據(jù)集中不同數(shù)量的對(duì)象來觀察pout、precision、recall和f-measure。圖2和圖3顯示了隨著對(duì)象數(shù)量的增加,兩個(gè)數(shù)據(jù)集上的結(jié)果。由于我們?cè)趫D2中選擇了前100個(gè)值和相應(yīng)的對(duì)象相關(guān)性作為離群值相關(guān)性,因此jcor rdj在這種情況下等于joutcorrj,這使得精度與 (a)(b) 圖2。aminer和yahoo!上結(jié)構(gòu)2內(nèi)容的pout和f-measure!電影。(選擇前100個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 (a)(b) 圖3。Aminer和Yahoo!上結(jié)構(gòu)2內(nèi)容的pout、precision、recall和f-measure!電影。(選擇前50個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 回憶。另外,pout與精度之和為1。因此,我們只在圖2中提供pout和f-measure。在圖3中,我們選擇前50個(gè)值和相應(yīng)的對(duì)象相關(guān)性。圖3中的召回低于圖2中的召回,因?yàn)槭謩?dòng)標(biāo)注的離群值相關(guān)性數(shù)量與檢測(cè)到的離群值相關(guān)性(即圖3中的joutcorrj?2jcorrdj)不同。aminer中的功能數(shù)量高于yahoo!中的功能數(shù)量。電影,這可能導(dǎo)致更高的精度在aminer。同時(shí),可能需要較長(zhǎng)的時(shí)間才能在胺液中獲得充分的特性。 在第二個(gè)實(shí)驗(yàn)中,我們驗(yàn)證了我們提出的算法的可擴(kuò)展性。在Aminer和Yahoo!電影數(shù)據(jù)集,我們將對(duì)象數(shù)量從1000增加到4000,然后觀察運(yùn)行時(shí)間。圖4顯示,隨著數(shù)據(jù)量的線性增長(zhǎng),執(zhí)行時(shí)間幾乎是線性增長(zhǎng),而不是指數(shù)增長(zhǎng)。然后,我們將處理器的數(shù)量從2更改為8,然后觀察運(yùn)行時(shí)間。圖5表明,隨著處理器數(shù)量的增加,執(zhí)行時(shí)間大大縮短,這意味著我們提出的方法可以執(zhí)行并行計(jì)算。 在第三個(gè)實(shí)驗(yàn)中,我們使用三個(gè)基線算法(cdoutliers[16]、基于查詢的[17]、abcoutliers[26])進(jìn)行了比較實(shí)驗(yàn)。CDoutlier基于聯(lián)合非負(fù)矩陣分解發(fā)現(xiàn)了所有對(duì)象類型的流行社區(qū)分布模式。cdoutlier組作者基于他們的研究區(qū)域分布。也就是說,它只考慮網(wǎng)絡(luò)中的內(nèi)容信息。根據(jù)用戶輸入的查詢,基于查詢的異常值檢測(cè)。在整個(gè)過程中,它考慮的結(jié)構(gòu)信息多于內(nèi)容信息。Abcoutliers計(jì)算所有匹配的群組結(jié)果。它不如基于查詢的算法有效。圖6中的曲線表明 圖4。在aminer和yahoo!上不同數(shù)據(jù)數(shù)量條件下的運(yùn)行時(shí)間比較電影數(shù)據(jù)集。(選擇前100個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 圖5。在aminer和yahoo!上不同處理器數(shù)量條件下的運(yùn)行時(shí)間比較。電影數(shù)據(jù)集。(選擇前100個(gè)對(duì)象相關(guān)性作為離群值相關(guān)性)。 (a)(b)圖6。Aminer和Yahoo!四種異常值檢測(cè)方法的性能比較電影。 structure2內(nèi)容的性能優(yōu)于cdoutlier、query-based和abcoutlier。 在第四個(gè)實(shí)驗(yàn)中,我們驗(yàn)證了該方法的有效性。從圖7的曲線可以看出,結(jié)構(gòu)2內(nèi)容的時(shí)間復(fù)雜度比其他基線算法要低得多。此外,當(dāng)我們插入新數(shù)據(jù)或刪除過時(shí)數(shù)據(jù)時(shí),我們的增量方法不需要從頭計(jì)算相似性。它可以大大降低時(shí)間復(fù)雜度和空間復(fù)雜度。 在第五個(gè)實(shí)驗(yàn)中,我們提供了一個(gè)案例研究來說明什么樣的對(duì)象相關(guān)性應(yīng)該被視為異常相關(guān)性。我們根據(jù)數(shù)據(jù)集的格式對(duì)數(shù)據(jù)進(jìn)行注釋。例如,在aminer中,我們添加了'fty author (a)(b) 圖7。我們建議的結(jié)構(gòu)內(nèi)容和三個(gè)基線算法的運(yùn)行時(shí)間,兩個(gè)數(shù)據(jù)集上的對(duì)象數(shù)不同。 表7.Aminer數(shù)據(jù)集異常關(guān)聯(lián)的案例研究。 論文編號(hào) 作者 關(guān)鍵詞 磷1 A1,A2 k1、k2、k3、k4、k5 磷2 A1,A2 K6、K7、K8、K9、K10 磷3 一1 k1、k2、k3、k4、k5 磷4 一2 K6、K7、K8、K9、K10 磷5 A3,A4 K11、K12、K13、K14、K15 磷6 A5,A6 K11、K12、K13、K14、K15 具有結(jié)構(gòu)相似性但幾乎沒有內(nèi)容相似性的關(guān)聯(lián),并添加另一個(gè)具有內(nèi)容相似性但幾乎沒有結(jié)構(gòu)相似性的作者關(guān)聯(lián)。在前一個(gè)案例中,兩位作者是多篇論文的共同作者,但他們的研究領(lǐng)域完全不同。在后一種情況下,兩位作者的研究領(lǐng)域幾乎相同,但他們從不在論文上合作。基于以上兩種情況,我們?cè)赼miner中注釋數(shù)據(jù)。表7列出了兩種異常值相關(guān)性。例如,aa和aa被認(rèn)為是離群關(guān)聯(lián),因?yàn)樗鼈冊(cè)趦善撐纳蠀f(xié)作,但它們的研究領(lǐng)域完全不同。此外,a(a_)和a(a_)被視為離群關(guān)聯(lián),因?yàn)樗鼈兊难芯款I(lǐng)域相同,但以前從未合作過。我們可以互相推薦,看看他們能否進(jìn)行學(xué)術(shù)交流。1 2 3 45 6 8。結(jié)論 In this paper, we propose an incremental outlier correlation detection method for heterogeneous information networks based on 3-tuples and structure-content difference. The Structure2Content model includes two parts: structure-level and content-level. In these two parts, the 3-tuples and the mirror step are used to measure the closeness degree between target objects. An iterative process and the coverage rate are combined to get su±cient features to represent the target objects in contentlevel. The insertion and deletion process demonstrates that our proposed method does not need to train the data from the beginning when inserting new data or deleting obsoleted data. In addition, using 3-tuples to store the target objects and the corresponding relations can save more space than using the adjacent matrix. Experimental results show that our proposed outlier detection method, Structure2Content, can incrementally discover outlier correlations in heterogeneous information networks. 9. Future Work Future work on highlighting the heterogeneity during the calculating process is needed. For example, it would be interesting to use 3-tuples to represent the relations between di?erent types of objects. Also, we plan to detect outliers and outlier correlations simultaneously. Then, we can carry on comprehensive analysis about single outliers and outlier correlations. And we should think about how to deal with new objects with little information. The work on development of distributed version of the incremental outlier detection algorithm is also needed. Acknowledgments This work is supported by the National Natural Science Foundation of China under grant No. 60903098, the Project of Jilin Provincial Industrial Technology Research and Development (JF2012c016-2), and Graduate Innovation Fund of Jilin University (2016183, 2016184). References 1. F. Angiulli and F. Fassetti, Towards generalizing the uniˉcation with statistical outliers: The gradient outlier factor measure, ACM Trans. Knowl. Discov. Data 10(3) (2016), Article ID: 27. 2. F. Angiulli, F. Fassetti, L. Palopoli and G. Manco, Outlying property detection withnumerical attributes, Data Mining Knowl. Discov. (2013) 1–30. 3. C. C. Aggarwal and S. Sathe, Theoretical foundations and algorithms for outlierensemblesk, ACM SIGKDD Expl. Newslett. 17(1) (2015) 24–47. 4. F. Dufrenois and J. C. Noyer, One class proximal support vector machines, Pattern Recognition 52 (2016) 96–112. 5. F. Chen, C. T. Lu and A. P. Boedihardjo, GLS-SOD: A generalized local statisticalapproach for spatial outlier detection, in Proc. 16th ACM SIGKDD Int. Conf. Knowledge Discovery and Data Mining, 2010. 6. G. H. Orair, C. H. C. Teixeira, W. Meira Jr., Y. Wang and S. Parthasarathy, Distancebased outlier detection: Consolidation and renewed bearing, in Proc. VLDB Endowment 3(1–2) 2010. 7. R. Gupta and K. Pandey, Density based outlier detection technique, Adv. Intell. Syst. Comput. 433 (2016) 51–58. 8. T. Zhang, R. Ramakrishnan and M. Livny, BIRCH: An e±cient data clustering methodfor very large databases, in ACM SIGMOD Record (ACM, 1996). 9. S. Guha, R. Rastogi and K. Shim, CURE: An e±cient clustering algorithm for largedatabases, in ACM SIGMOD Record (ACM, 1998). 10. G. Karypis, E. H. Han and V. Kumar, Chameleon: Hierarchical clustering using dynamicmodeling, Computer 32(8) (1999) 68–75. 11. T. B. Wu, Y. Cheng, Z. K. Hu, W. P. Xie and Y. L. Liu, A new PLS and bayesianclassiˉcation based online outlier detection method, in Proc. 3rd Int. Conf. Advanced Design and Manufacturing Engineering, 2013. 12. N. Koochakzadeh, K. Kianmehr, J. Jida, I. Lee, R. Alhajj and J. Rokne, Semi-superviseddynamic classiˉcation for intrusion detection, Int. J. Softw. Eng. Knowl. Eng. 20(2) (2010) 139–154. 13. I. S. Sitanggang and D. A. M. Baehaki, Global and collective outliers detection on hotspotdata as forest ˉres indicator in Riau Province, Indonesia, in Proc. 2nd IEEE Int. Conf. Spatial Data Mining and Geographical Knowledge Services, 2015, pp. 66–70. 14. J. Gao, H. B. Cheng and P. N. Tan, Semi-supervised outlier detection, in Proc. 2006 ACM Symp. Applied Computing, 2006, pp. 635–636. 15. F. Rasheed and R. Alhajj, A framework for periodic outlier pattern detection in timeseries sequences, IEEE Trans. Cybernetics 44(5) (2014) 569–582. 16. M. Gupta, J. Gao, C. Aggarwal and J. Han, Community distribution outlier detection inheterogeneous information networks, European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases, 2013, pp. 557–573. 17. H. Zhuang, J. Zhang, G. Brova, J. Tang, H. Cam, X. Yan and J. Han, Mining query-basedsubnetwork outliers in heterogeneous information networks, IEEE Int. Conf. Data Mining, 2014, pp. 1127–1132. 18. D. Pokrajac, N. Reljin, N. Pejcic and A. Lazarevic, Incremental connectivity-based outlierfactor algorithm, in Proc. Int. Conf. Visions of Computer Science BCS International Academic Conference, 2008, pp. 211–224. 19. C. H. Ju and Y. L. Li, An incremental outlier detection model for transactions datastreams, J. Inf. Comput. Sci. 10(1) (2013) 49–59. 20. Y. Sun, J. Han, X. Yan, P. S. Yu and T. Wu, PathSim: Meta path-based top-k similaritysearch in heterogeneous information networks, in VLDB'11, 2011, pp. 992–1003. 21. B. Liu, Web Data Mining: Exploring Hyperlinks, Contents and Usage Data, 2nd edn. (Springer, Berlin, 2011). 22. W. B. Croft, D. Metzler and T. Strohman, Search Engines: Information Retrieval in Practice (Addison-Wesley, 2009). 23. J. Tang, J. Zhang, L. M. Yao, J. Z. Li, L. Zhang and Z. Su, Arnetminer: Extraction andmining of academic social networks, in Proc. 14th ACM SIGKDD Int. Conf. Knowl. Discovery and Data Mining, 2008, pp. 990–998. 24. Yahoo! webscope program, http://webscope.sandbox.yahoo.com. Accessed: 28/01/2016. 25. T. Peng and L. Liu, Focused crawling enhanced by CBP-SLC, Knowl.-Based Syst. 51 (2013) 15–26. 26. M. Gupta, J. Gao, X. F. Yan, H. Cam and J. W. Han, On detecting association-basedclique outliers in heterogeneous information networks, Advances in Social Networks Analysis and Mining, 2013, pp. 108–115.

市場(chǎng)分析