- 博客(0)
- 资源 (5)
- 收藏
- 关注
基于LDA主题特征的自动文摘方法
近年来概率主题模型受到了研究者的广泛关注,LDA( Latent Dirichlet Allocation) 模型是主题模型中具有代表性的概率生
成模型之一,它能够检测文本的隐含主题。提出一个基于LDA 模型的主题特征,该特征计算文档的主题分布与句子主题分布的距
离。结合传统多文档自动文摘中的常用特征,计算句子权重,最终根据句子的分值抽取句子形成摘要。实验结果证明,加入LDA 模
型的主题特征后,自动文摘的性能得到了显著的提高。
2012-12-27
基于LDA的主题分析
在文本分割的基础上, 确定片段主题, 进而总结全文的中心主
题, 使文本的主题脉络呈现出来, 主题以词串的形式表示. 为了分析准
确, 利用LDA(Latent dirichlet allocation) 为语料库及文本建模, 以
Clarity 度量块间相似性, 并通过局部最小值识别片段边界. 依据词汇的
香农信息提取片段主题词, 采取背景词汇聚类及主题词联想的方式将主
题词扩充到待分析文本之外, 尝试挖掘隐藏于字词表面之下的文本内涵.
实验表明, 文本分析的结果明显好于其他方法, 可以为下一步文本推理的
工作提供有价值的预处理.
2012-12-27
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人