南京大学学报(自然科学版) ›› 2013, Vol. 49 ›› Issue (4): 433–439.

• • 上一篇    下一篇

基于自适应聚类的虚假评论检测

宋海霞;严馨;余正涛;石林宾;苏斐;   

  • 出版日期:2013-08-30 发布日期:2013-08-30
  • 作者简介:昆明理工大学信息工程与自动化学院;中国石油信息技术服务中心;
  • 基金资助:
    基金:国家自然科学基金(61175068);;云南省教育厅基金重大专项项目;;教育部回国留学人员启动基金

D e t e c t i o no f f a k e r e v i e w sb a s e do na d a p t i v e c l u s t e r i n g

S o n gH a i - X i a 1 , Y a nX i n 1 , Y uZ h e n g - T a o1 , S h iL i n - B i n 1 , S uF e i   

  • Online:2013-08-30 Published:2013-08-30
  • About author:( 1. T h eS c h o o l o f I n f o r m a t i o nE n g i n e e r i n ga n dA u t o m a t i o n , K u n m i n gU n i v e r s i t yo f
    S c i e n c ea n dT e c h n o l o g y , K u n m i n g , 6 5 0 5 0 0 , C h i n a ;
    2. C h i n aP e t r o l e u mI n f o r m a t i o nT e c h n o l o g yS e r v i c eC e n t e r , B e i j i n g , 1 0 0 0 0 7 , C h i n a )

摘要: 借助评论者的行为特性,提出一种基于评论者行为特征的自适应聚类的虚假评论检测方法.首先,根据评论数据定义自身基本特征以及与其他评论之间的关联性特征,并对每维特征进行归一化处理;其次,根据每一条评论的特征构建聚类矩阵,利用F统计量对K均值算法进行改进,实现评论数据的自适应聚类;最后,计算每个簇偏离整个评论数据集的程度,根据阈值确定异常簇,从而实现虚假评论检测.利用领域评论数据进行实验,结果表明基于自适应聚类的虚假评论检测方法取得了较好的效果.

Abstract: W i t ht h eb e h a v i o r c h a r a c t e r i s t i c s o f t h e r e v i e w e r s , w ep r o p o s eo n e f a k e r e v i e wd e t e c t i o nm e t h o db a s e do n
a d a p t i v ec l u s t e r i n gf r o mt h eb e h a v i o rf e a t u r e so fr e v i e w e r s . F i r s t l y , a c c o r d i n gt ot h er e v i e w e dd a t a , w ed e f i n et h e
b a s i c f e a t u r e sa n dc o r r e l a t i o nf e a t u r e sw i t ho t h e r r e v i e w e r s , a n dn o r m a l i z e t h e f e a t u r e so f e a c hd i m e n s i o n . S e c o n d l y ,
w eb u i l dac l u s t e r i n g m a t r i xb a s e do nt h ef e a t u r e so fe a c hr e v i e w u s i n g F s t a t i s t i ct oi m p r o v et h e K - m e a n s
a l g o r i t h m , a n dt oa c h i e v ea d a p t i v e c l u s t e r i n g f o r r e v i e w s . F i n a l l y , w e c a l c u l a t e t h ed e g r e eo f d e v i a t i o n f r o mt h ee n t i r e
r e v i e wd a t as e t f o r e a c hc l u s t e r , a n dd e t e r m i n ea b n o r m a l c l u s t e r sb a s e do n t h e t h r e s h o l dv a l u e t oa c h i e v e f a k e r e v i e w
d e t e c t i o n . O u re x p e r i m e n t a l r e s u l t s s h o wt h a t i t g e t s ab e t t e r e f f e c t t ou s e t h em e t h o do f f a k e r e v i e w sd e t e c t i o nb a s e d
o na d a p t i v ec l u s t e r i n gu s i n ga r e a s ’ r e v i e wd a t a .
 

[ 1 ] Z h a oY Y , Q i nB , L i uT. As u r v e yo fs e n t i m e n t a n a l y s i s . J o u r n a lo fS o f t w a r e , 2 0 1 0 , 2 1 ( 8 ) : 1 8 3 4 ~1 8 4 8. ( 赵妍妍, 秦兵, 刘挺 . 文本情感分析 . 软件学报,2 0 1 0 , 2 1 ( 8 ) : 1 8 3 4~1 8 4 8 ) .
[ 2 ] Y a n gFL , L i JH. S u r v e yo nr e s e a r c ho fo p i n i o n i n u s e r - g e n e r a t e d - c o n t e n t . A p p l i c a t i o n R e s e a r c h o fC o m p u t e r s , 2 0 1 1 , 2 8 ( 1 0 ) : 3 6 0 1~3 6 0 5. ( 杨风雷, 黎建辉 . 用户生成内容中的垃圾意见研究综述 . 计算机应用研究,
 2 0 1 1 , 2 8 ( 1 0 ) : 3 6 0 1 ~3 6 0 5 ) .
[3 ] J i n d a l N , L i u B.R e v i e w s p a m d e t e c t i o n .P r o c e e d i n g so ft h e1 6t h I n t e r n a t i o n a lC o n f e r e n c e o nW o r l dW i d eW e b , 2 0 0 7 : 1 1 8 9~1 1 9 0.
[ 4 ] T a nW T , Z h uH , G eB , e t a l . M e t h o do fr e v i e w s p a md e t e c t i o n . J o u r n a l o fN a t i o n a lU n i v e r s i t yo f D e f e n s eT e c h n o l o g y , 2 0 1 2 , 3 4 ( 5 ) : 1 5 3~1 5 7. ( 谭文堂, 朱 洪, 葛 斌等 . 垃圾评论自动过滤方
法 . 国防科技大学学报, 2 0 1 2 , 3 4 ( 5 ) : 1 5 3~1 5 7 ) .
[ 5 ] F e n gS , B a n e r j e eR , C h a iYJ . S y n t a c t i c s t y l o m e t r y f o r d e c e p t i o nd e t e c t i o n . P r o c e e d i n g so ft h e5 0t hA n n u a l M e e t i n g o f t h e A s s o c i a t i o n f o r C o m p u t a t i o n a l  i n g u i s t i c s , 2 0 1 2 : 8 ~ 1 4 .
[6 ] J i n d a lN , L i uB , L i m EP . F i n d i n gu n u s u a lr e v i e w p a t t e r n su s i n gu n e x p e c t e dr u l e s . P r o c e e d i n g so ft h e 1 9 t h A CMI n t e r n a t i o n a lC o n f e r e n c eo nI n f o r m a t i o n a n dK n o w l e d g eM a n a g e m e n t , 2 0 1 0 : 1 5 4 9 ~ 1 5 5 2 .
[ 7 ] L i m EP , N g u y e nV A , J i n d a lN , e t a l . D e t e c t i n g p r o d u c t r e v i e ws p a mm e r su s i n gr a t i n gb e h a v i o r s . P r o c e e d i n g s o f t h e 1 9 t h
A CM I n t e r n a t i o n a l C o n f e r e n c eo nI n f o r m a t i o na n dK n o w l e d g eM a n - a g e m e n t , N e wY o r k , U S A : 2 0 1 0.
[ 8 ] W a n gG , X i eS H , L i uB , e ta l . I d e n t i f yo n l i n e s t o r er e v i e ws p a mm e r sv i as o c i a lr e v i e wg r a p h .
A CM T r a n s a c t i o n so nI n t e l l i g e n tS y s t e m sa n d T e c h n o l o g y ( T I S T ) , 2 0 1 2 , 3 ( 4 ) .
[ 9 ] X i eS H , W a n g G , L i nS Y , e ta l . R e v i e ws p a m d e t e c t i o nv i a t e m p o r a l p a t t e r nd i s c o v e r y . P r o c e e d i n g s o f t h e1 8 t h A CMS I G K D DI n t e r n a t i o n a lC o n f e r e n c e
o nK n o w l e d g eD i s c o v e r ya n dD a t aM i n i n g , 2 0 1 2 : 8 2 3~8 3 1.
[ 1 0 ] L a p p a sT. F a k er e v i e w s : T h em a l i c i o u sp e r s p e c t i v e .P r o c e e d i n g so ft h e1 7 t h I n t e r n a t i o n a lc o n f e r e n c eo n A p p l i c a t i o n so fN a t u r a lL a n g u a g eP r o c e s s i n gt oI n - f o r m a t i o nS y s t e m s , 2 0 1 2 : 2 3 ~ 3 4 .
[ 1 1 ] A l m e l a A , R a f a e l V , C a n t o s P. S e e i n g t h r o u g h d e c e p t i o n : A c o m p u t a t i o n a l a p p r o a c h t o d e c e i t d e t e c t i o ni nw r i t t e nc o mm u n i c a t i o n . P r o c e e d i n g so f t h e1 3t hC o n f e r e n c eo ft h eE u r o p e a n C h a p t e ro ft h e
A s s o c i a t i o nf o rC o m p u t a t i o n a lL i n g u i s t i c s : E A C L.
2 0 1 2 : 1 5 ~2 2 .
[ 1 2 ] O t t M , C h o i Y J , C a r o l i e C , e ta l . F i n d i n g d e c e p t i v eo p i n i o ns p a m b ya n ys t r e t c h o ft h e i m a g i n a t i o n .P r o c e e d i n g s o f t h e 4 9t h A n n u a l M e e t i n go ft h e A s s o c i a t i o nf o r C o m p u t a t i o n a l
L i n g u i s t i c s : H u m a n L a n g u a g e T e c h n o l o g i e s , 2 0 1 1 , 1 : 3 0 9~3 1 9.
[ 1 3 ] X i eS H , W a n g G , L i nS Y , e ta l . R e v i e ws p a md e t e c t i o n v i a t i m e s e r i e s p a t t e r n d i s c o v e r y .P r o c e e d i n g so ft h e 2 1 s t
I n t e r n a t i o n a l C o n f e r e n c e C o m p a n i o no nW o r l dW i d eW e b , 2 0 1 2 : 6 3 5 ~6 3 6 .
[ 1 4 ] X i eX M , L iY. P a r t i t i o n i n g m e t h o do ft r a i n i n gd a t a b a s e d o n c l u s t e r i n M i n - M a x m o d u l a r n e t w o r k. J o u r n a lo fN a n j i n g U n i v e r s i t y ( N a t u r a l
S c i e n c e s ) , 2 0 1 2 , 4 8 ( 1 2 ) : 1 3 3~1 3 9. ( 解晓敏, 李云 . 最小最大模块化网络中基于聚类的数据划分方法研究 . 南京大学学报( 自然科学) , 2 0 1 2 , 4 8 1 2 ) : 1 3 3~1 3 9 ) .
[ 1 5 ] D e n gQ , L i uJH. R e s e a r c ho na p p l i c a t i o no f i n t r u s i o nd e t e c t i o n b a s e s o n i m p r o v e d F C M.L i a o n i n g :  n i v e r s i t yo fL i a o n i n gE n g i n e e r i n ga n dT e c h n o l o g y
M a s t e rD i s s e r t a t i o n , 2 0 1 0 . ( 邓 青, 刘建辉 . 基于改进模糊 C 均值的入侵检测算法及应用研究 . 辽宁: 辽宁工程技术大学硕士学位论文,2 0 1 0
No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!