南京大学学报(自然科学版) ›› 2013, Vol. 49 ›› Issue (4): 425432.
江雨燕;李平;王清;
J i a n gY u - Y a n , L iP i n g , W a n gQ i n g
摘要: 概率主题模型由于其优良的文档分析能力,被广泛应用于各种文本分析任务中.然而,网络中的文档数据除了含有基本的内容信息外,同时还可能存在文档类别、作者等信息.如何通过主题模型对这些信息进行有效的分析,已经成为机器学习、自然语言处理等领域的重点研究方向.本文通过对隐含狄利克雷分配(Latent Dirichlet Allocation,LDA)及其扩展模型的研究,提出一种适用于文档多标签判定的改进Labeled LDA模型.模型中的标记被映射为多个主题的组合,其中包含若干个独享的主题和共享主题.在文档类别判定过程中通过联合独享主题和共享主题来对类别进行预测.为了验证算法的有效性本文将提出的模型分别与PLDA模型及其他非主题模型进行了对比.实验结果表明,改进LabeledLDA模型能够有效解决PLDA模型无法有效分析类别标记之间共享主题的问题,具有明显优于PLDA和其他非主题模型的多标签判定能力.
[ 1 ] S t e y v e r s M , G r i f f i t h s T.P r o b a b i l i s t i c t o p i c m o d e l s . H a n d b o o ko fL a t e n tS e m a n t i cA n a l y s i s ,2 0 0 7 , 4 2 7 ( 7 ) : 4 2 4~4 4 0. [ 2 ] B l e iD M , N gA Y , J o r d a n MI . L a t e n td i r i c h l e t a l l o c a t i o n .T h e J o u r n a l o f M a c h i n e L e a r n i n g R e s e a r c h , 2 0 0 3 , 3 : 9 9 3~1 0 2 2. [ 3 ] M i m n o D , M c C a l l u m A. T o p i c m o d e l sc o n d i t i o n e do na r b i t r a r yf e a t u r e sw i t hd i r i c h l e t - m u l t i n o m i a lr e g r e s s i o n . P r o c e e d i n g so ft h e2 4 t h A n n u a lC o n f e r e n c e o nU n c e r t a i n t y i nA r t i f i c i a l I n - t e l l i g e n c e , H e l s i n k i , F i n l a n d , 2 0 0 8. [ 4 ] K i m H , S u n Y , H o c k e n m a i e rJ , e ta l . E TM :E n t i t y t o p i c m o d e l s f o r m i n i n g d o c u m e n t s a s s o c i a t e d w i t h e n t i t i e s .2 0 1 2 I E E E 1 2 t h I n t e r n a t i o n a lC o n f e r e n c eo nD a t a M i n i n g . I E E E , 2 0 1 2 : 3 4 9~3 5 8. [ 5 ] B l e i D M , M c A u l i f f e J D.S u p e r v i s e d t o p i c m o d e l s . A d v a n c e s i n N e u r a l I n f o r m a t i o n P r o c e s s i n gS y s t e m s ( N I P S ) , 2 0 0 7. [6 ] R a m a g eD , H a l lD , N a l l a p a t iR , e ta l . L a b e l e d L D A : A s u p e r v i s e d t o p i c m o d e l f o r c r e d i t a t t r i b u t i o ni n m u l t i - l a b e l e dc o r p o r a . P r o c e e d i n g s o f t h e2 0 0 9C o n f e r e n c eo nE m p i r i c a lM e t h o d si n N a t u r a l L a n g u a g e P r o c e s s i n g : V o l u m e 1 - V o l u m e 1. A s s o c i a t i o n f o r C o m p u t a t i o n a l L i n g u i s t i c s , 2 0 0 9 : 2 4 8~2 5 6. [ 7 ] R a m a g eD , M a n n i n g C D , D u m a i sS . P a r t i a l l y l a b e l e d t o p i c m o d e l s f o r i n t e r p r e t a b l e t e x t m i n i n g . P r o c e e d i n g so ft h e1 7 t h A CM S I G K D D I n t e r n a t i o n a lC o n f e r e n c eo nK n o w l e d g eD i s c o v e r y a n dD a t aM i n i n g . A CM , 2 0 1 1 : 4 5 7~4 6 5. [ 8 ] H o f m a n n T. P r o b a b i l i s t i c l a t e n t s e m a n t i c a n a l y s i s . P r o c e e d i n g so ft h e1 5 t h c o n f e r e n c eo n U n c e r t a i n t y i n A r t i f i c i a l I n t e l l i g e n c e .M o r g a n K a u f m a n nP u b l i s h e r s I n c . , 1 9 9 9 : 2 8 9~2 9 6. [ 9 ] P a l m e r J , W i p f D , K r e u t z - D e l g a d o K , e ta l . V a r i a t i o n a lEMl g o r i t h m s f o rn o n - G a u s s i a n l a t e n t v a r i a b l em o d e l s . A d v a n c e si nN e u r a l I n f o r m a t i o n P r o c e s s i n gS y s t e m s , 2 0 0 6 , 1 8 : 1 0 5 9. [ 1 0 ] M i n k aT , L a f f e r t yJ . E x p e c t a t i o n - p r o p a g a t i o nf o r t h eg e n e r a t i v ea s p e c tm o d e l . P r o c e e d i n g so ft h e · 1 3 4 1 8 t h C o n f e r e n c eo nU n c e r t a i n t y i nA r t i f i c i a l I n t e l - l i g e n c e .M o r g a n K a u f m a n n P u b l i s h e r s I n c . , 2 0 0 2 : 3 5 2~3 5 9. [ 1 1 ] G e l f a n d A E , S m i t h A F M. S a m p l i n g - b a s e d a p p r o a c h e s t o c a l c u l a t i n g m a r g i n a l d e n s i t i e s . J o u r n a lo ft h eAm e r i c a nS t a t i s t i c a lA s s o c i a t i o n , 1 9 9 0 , 8 5 ( 4 1 0 ) : 3 9 8~4 0 9. [ 1 2 ] T e hY W , N e wm a nD , W e l l i n g M. Ac o l l a p s e d v a r i a t i o n a lB a y e s i a n i n f e r e n c e a l g o r i t h mf o r l a t e n t D i r i c h l e t a l l o c a t i o n . A d v a n c e s i n N e u r a l I n f o r m a t i o nP r o c e s s i n gS y s t e m s , 2 0 0 7 , 1 9 : 1 3 5 3. [ 1 3 ] Z h a n gML , Z h o uZH. ML - KNN : Al a z y l e a r n i n g a p p r o a c h t o m u l t i - l a b e l l e a r n i n g . P a t t e r n e c o g n i t i o n , 2 0 0 7 , 4 0 ( 7 ) : 2 0 3 8~2 0 4 8. [ 1 4 ] S p y r o m i t r o s E , T s o u m a k a s G , V l a h a v a sI . A n e m p i r i c a ls t u d yo fl a z y m u l t i l a b e lc l a s s i f i c a t i o n a l g o r i t h m s . A r t i f i c i a l I n t e l l i g e n c e : T h e o r i e s , M o d e l s a n d A p p l i c a t i o n s . S p r i n g e r B e r l i n H e i d e l b e r g , 2 0 0 8 : 4 0 1~4 0 6. [ 1 5 ] C h e n g W , H ü l l e r m e i e r E. C o m b i n i n gi n s t a n c e - b a s e d l e a r n i n g a n d l o g i s t i c r e g r e s s i o n f o rm u l t i l a b e l c l a s s i f i c a t i o n . M a c h i n eL e a r n i n g , 2 0 0 9 , 7 6 ( 2-3 ) : 2 1 1~2 2 5. [ 1 6 ] V e n sC , S t r u y f J , S c h i e t g a tL , e t a l . D e c i s i o nt r e e s f o rh i e r a r c h i c a lm u l t i - l a b e l c l a s s i f i c a t i o n . M a c h i n e L e a r n i n g , 2 0 0 8 , 7 3 ( 2 ) : 1 8 5~2 1 4. |
No related articles found! |
|