NLP 2.8 Word2Vec,Skip-Gram model

1411-李同学

发表文章数:148

首页 » 算法 » 正文

1、Word2Vec

1.1 one-hot encoding的缺陷

  • 1)稀疏的表示方法,维度太高
  • 2)无法表达词的相似性
  • 3)表达能力弱(泛化能力)

通过余弦相似度可以表达句子之间的相关性

1.2 词向量

分布式的表示法:维度远小于one-hot encoding

在semantic space希望把语义相近的词聚在一起
NLP 2.8 Word2Vec,Skip-Gram model

NLP 2.8 Word2Vec,Skip-Gram model
NLP 2.8 Word2Vec,Skip-Gram model

3、Global generation of distributed representation

泛化

语义相关

capacity

Dense 稠密

在一个文章里,离得越近的词相似度越高

4、Skip-Gram model

4.1 Introduction

  • CBOW,根据两边的单词预测中间的
  • Skip-gram:根据一个单词预测两边的单词

NLP 2.8 Word2Vec,Skip-Gram model

4.2 Formulation

  1. 给定working的情况下,出现前后四个单词的条件概率相乘越大越好

NLP 2.8 Word2Vec,Skip-Gram model
2) 进行两次循环,第一次遍历text中所有的词,第二次遍历以词为中心周围的几个词,使得几个词在给定中心词的条件下,条件概率的最大化。
NLP 2.8 Word2Vec,Skip-Gram model

5、语料库

NLP 2.8 Word2Vec,Skip-Gram model
定义两个词向量矩阵分别储存中心词和上下文的词

如何表达条件概率

P

(

c

w

i

,

θ

)

P(c|w_i,/theta)

P(cwi,θ)

NLP 2.8 Word2Vec,Skip-Gram model

内积表示两个单词的相似度

C prime:代表的是整个词库

简化后的的formulation:

NLP 2.8 Word2Vec,Skip-Gram model
词库的词可能会有很多,为了简化这个流程,提出了两个方法:

  • 1、negative sampling:只考虑其中的一部分
  • 2、hierarchical softmax

NLP 2.8 Word2Vec,Skip-Gram model

未经允许不得转载:作者:1411-李同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《NLP 2.8 Word2Vec,Skip-Gram model》 发布于2021-02-17

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录