2021-02-23

1411-李同学

发表文章数:148

首页 » 算法 » 正文

1、主题模型 LDA

  • 文本类
  • 社交
  • 推荐

1.1 Introduction

  • 有大量的文本资料

  • LDA接受的最小单元是document

  • 学习出每个文本的主题

  • 设定超参数K

  • output:每个文档会有一个概率的分布,主题分布,选择概率最大的簇作为当前文档分类后的主题。

    θ

    /theta

    θ

2021-02-23

  • 词主题:在每个主题下,每个单词出现的概率有多大。每个单词在每个主题下出现的概率。

    ϕ

    /phi

    ϕ
    2021-02-23

  • Topic 是一个隐变量。

  • 对于词主题,把每一个簇中出现概率最大的几个单词拿出来,查看它们的类别,那么簇有很大的概率属于这一个类别。

朴素贝叶斯与LDA的区别

朴素贝叶斯每次只考虑当前的一个topic,只考虑对于当前topic中的词对于topic的影响。

2021-02-23

2、不同模型的范畴 Model estimation

贝叶斯模型的定义:

MLE和MAP的都是频率派
通过学习估算出一个最优解

1、MLE
2021-02-23

2、MAP:后验概率 既考虑likelihood也考虑先验概率

2021-02-23
3、Bayesian
不是估计哪个参数最好,计算所有可能的

θ

/theta

θ求积分
在训练值已知的情况下,预测出

θ

/theta

θ的分布。
贝叶斯模型的核心:计算

p

(

θ

D

)

p(/theta|D)

p(θD)的分布概率
2021-02-23

3、LDA 预测的过程

计算训练集中所有的模型参数的可能的是很困难的,所以使用蒙特卡洛方法进行近似采样。

2021-02-23

  • 先采样
  • 再把采样的结果放到预测的里面

4、Monte Carlo Sample

Markov chain Monte Cartlo(增加依赖关系)

2021-02-23

未经允许不得转载:作者:1411-李同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《2021-02-23》 发布于2021-02-24

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录