南京大学学报(自然科学版) ›› 2013, Vol. 49 ›› Issue (4): 425–432.

• • 上一篇    下一篇

用于多标签分类的改进Labeled LDA模型

江雨燕;李平;王清;   

  • 出版日期:2013-08-30 发布日期:2013-08-30
  • 作者简介:安徽工业大学管理科学与工程学院;
  • 基金资助:
    基金:安徽省高校省级科学研究项目(KJ2013A053)

A n i m p r o v e d l a b e l e dL a t e n tD i r i c h l e tA l l o c a t i o nm o d e l f o r m u l t i - l a b e l c l a s s i f i c a t i o n

J i a n gY u - Y a n , L iP i n g , W a n gQ i n g   

  • Online:2013-08-30 Published:2013-08-30
  • About author:( S c h o o l o fM a n a g e m e n tS c i e n c ea n dE n g i n e e r i n g , A n h u iU n i v e r s i t yo fT e c h n o l o g y , M a ’ a n s h a n , 2 4 3 0 0 2 , C h i n a )

摘要: 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力.

Abstract: T o p i cm o d e l s , w h i c hh a v ee f f i c i e n tc a p a b i l i t i e so fd o c u m e n t sa n a l y s i s , h a v eb e e nw i d e l yu s e di nt a s k so f
d a t aa n a l y s i s . H o w e v e r , d o c u m e n t sm a yb ea s s o c i a t e dw i t hm u c ho t h e r i n f o r m a t i o n , s u c ha s l a b e l sa n da u t h o r s . H o w
t oa n a l y z e t h o s e i n f o r m a t i o nb a s e do nt o p i cm o d e l sh a sb e e np o p u l a ra m o n gm a c h i n e l e a r n i n ga n dn a t u r a l l a n g u a g e
p r o c e s s . B a s e do nt h es t u d yo nL D A m o d e l s , t h i sp a p e rp r o p o s e sa ni m p r o v e dL a b e l e dL D A m o d e l f o rm u l t i - l a b e l
c l a s s i f i c a t i o n . I nt h i sm o d e l , l a b e l sh a v e t w oc o m p o n e n t sw h i c ha r e l o c a l t o p i c sa n ds h a r e dt o p i c s . T h ep r e d i c t i o no f
l a b e l i sac o m b i n a t i o no f l o c a l t o p i c s a n ds h a r e d t o p i c s . I no r d e r t o t e s t t h ep e r f o r m a n c eo f t h en e wm o d e l , t h i sp a p e r
i m p l e m e n t a n dc o m p a r ei tw i t hs o m eo t h e rw i d e l yu s e d m o d e l s . E x p e r i m e n t a lr e s u l t sd e m o n s t r a t et h a tt h en e w
m o d e l c a na n a l y z e t h es h a r e dt o p i c sb e t w e e n l a b e l se f f i c i e n t l ya n do u t p e r f o r ms e v e r a lp r e v i o u s l yp u b l i s h e dm o d e l s .
 

[ 1 ] S t e y v e r s M , G r i f f i t h s T.P r o b a b i l i s t i c t o p i c m o d e l s . H a n d b o o ko fL a t e n tS e m a n t i cA n a l y s i s ,2 0 0 7 , 4 2 7 ( 7 ) : 4 2 4~4 4 0.
[ 2 ] B l e iD M , N gA Y , J o r d a n MI . L a t e n td i r i c h l e t a l l o c a t i o n .T h e J o u r n a l o f M a c h i n e L e a r n i n g R e s e a r c h , 2 0 0 3 , 3 : 9 9 3~1 0 2 2.
[ 3 ] M i m n o D , M c C a l l u m A. T o p i c m o d e l sc o n d i t i o n e do na r b i t r a r yf e a t u r e sw i t hd i r i c h l e t - m u l t i n o m i a lr e g r e s s i o n . P r o c e e d i n g so ft h e2 4 t h
A n n u a lC o n f e r e n c e o nU n c e r t a i n t y i nA r t i f i c i a l I n - t e l l i g e n c e , H e l s i n k i , F i n l a n d , 2 0 0 8.
[ 4 ] K i m H , S u n Y , H o c k e n m a i e rJ , e ta l . E TM :E n t i t y t o p i c m o d e l s f o r m i n i n g d o c u m e n t s a s s o c i a t e d w i t h e n t i t i e s .2 0 1 2 I E E E 1 2 t h
I n t e r n a t i o n a lC o n f e r e n c eo nD a t a M i n i n g . I E E E , 2 0 1 2 : 3 4 9~3 5 8.
[ 5 ] B l e i D M , M c A u l i f f e J D.S u p e r v i s e d t o p i c m o d e l s . A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n gS y s t e m s ( N I P S ) , 2 0 0 7. 
[6 ] R a m a g eD , H a l lD , N a l l a p a t iR , e ta l . L a b e l e d L D A : A s u p e r v i s e d t o p i c m o d e l f o r c r e d i t a t t r i b u t i o ni n m u l t i - l a b e l e dc o r p o r a . P r o c e e d i n g s
o f t h e2 0 0 9C o n f e r e n c eo nE m p i r i c a lM e t h o d si n N a t u r a l L a n g u a g e P r o c e s s i n g : V o l u m e 1 - V o l u m e 1. A s s o c i a t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s , 2 0 0 9 : 2 4 8~2 5 6.
[ 7 ] R a m a g eD , M a n n i n g C D , D u m a i sS . P a r t i a l l y l a b e l e d t o p i c m o d e l s f o r i n t e r p r e t a b l e t e x t m i n i n g . P r o c e e d i n g so ft h e1 7 t h A CM S I G K D D I n t e r n a t i o n a lC o n f e r e n c eo nK n o w l e d g eD i s c o v e r y
a n dD a t aM i n i n g . A CM , 2 0 1 1 : 4 5 7~4 6 5.
[ 8 ] H o f m a n n T. P r o b a b i l i s t i c l a t e n t s e m a n t i c a n a l y s i s . P r o c e e d i n g so ft h e1 5 t h c o n f e r e n c eo n U n c e r t a i n t y i n A r t i f i c i a l I n t e l l i g e n c e .M o r g a n
K a u f m a n nP u b l i s h e r s I n c . , 1 9 9 9 : 2 8 9~2 9 6.
[ 9 ] P a l m e r J , W i p f D , K r e u t z - D e l g a d o K , e ta l . V a r i a t i o n a lEMl g o r i t h m s f o rn o n - G a u s s i a n l a t e n t v a r i a b l em o d e l s . A d v a n c e si nN e u r a l I n f o r m a t i o n
P r o c e s s i n gS y s t e m s , 2 0 0 6 , 1 8 : 1 0 5 9.
[ 1 0 ] M i n k aT , L a f f e r t yJ . E x p e c t a t i o n - p r o p a g a t i o nf o r t h eg e n e r a t i v ea s p e c tm o d e l . P r o c e e d i n g so ft h e · 1 3 4 1 8 t h C o n f e r e n c eo nU n c e r t a i n t y i nA r t i f i c i a l I n t e l -
l i g e n c e .M o r g a n K a u f m a n n P u b l i s h e r s I n c . , 2 0 0 2 : 3 5 2~3 5 9.
[ 1 1 ] G e l f a n d A E , S m i t h A F M. S a m p l i n g - b a s e d a p p r o a c h e s t o c a l c u l a t i n g m a r g i n a l d e n s i t i e s . J o u r n a lo ft h eAm e r i c a nS t a t i s t i c a lA s s o c i a t i o n , 1 9 9 0 , 8 5 ( 4 1 0 ) : 3 9 8~4 0 9.
[ 1 2 ] T e hY W , N e wm a nD , W e l l i n g M. Ac o l l a p s e d v a r i a t i o n a lB a y e s i a n i n f e r e n c e a l g o r i t h mf o r l a t e n t D i r i c h l e t a l l o c a t i o n . A d v a n c e s i n N e u r a l I n f o r m a t i o nP r o c e s s i n gS y s t e m s , 2 0 0 7 , 1 9 : 1 3 5 3.
[ 1 3 ] Z h a n gML , Z h o uZH. ML - KNN : Al a z y l e a r n i n g a p p r o a c h t o m u l t i - l a b e l l e a r n i n g . P a t t e r n  e c o g n i t i o n , 2 0 0 7 , 4 0 ( 7 ) : 2 0 3 8~2 0 4 8.
[ 1 4 ] S p y r o m i t r o s E , T s o u m a k a s G , V l a h a v a sI . A n e m p i r i c a ls t u d yo fl a z y m u l t i l a b e lc l a s s i f i c a t i o n a l g o r i t h m s . A r t i f i c i a l I n t e l l i g e n c e : T h e o r i e s ,
M o d e l s a n d A p p l i c a t i o n s . S p r i n g e r B e r l i n H e i d e l b e r g , 2 0 0 8 : 4 0 1~4 0 6.
[ 1 5 ] C h e n g W , H ü l l e r m e i e r E. C o m b i n i n gi n s t a n c e - b a s e d l e a r n i n g a n d l o g i s t i c r e g r e s s i o n f o rm u l t i l a b e l c l a s s i f i c a t i o n . M a c h i n eL e a r n i n g , 2 0 0 9 , 7 6 ( 2-3 ) : 2 1 1~2 2 5.
[ 1 6 ] V e n sC , S t r u y f J , S c h i e t g a tL , e t a l . D e c i s i o nt r e e s f o rh i e r a r c h i c a lm u l t i - l a b e l c l a s s i f i c a t i o n . M a c h i n e L e a r n i n g , 2 0 0 8 , 7 3 ( 2 ) : 1 8 5~2 1 4.
No related articles found!
Viewed
Full text


Abstract

Cited

  Shared   
  Discussed   
No Suggested Reading articles found!