NLP十大Baseline论文简述(六) -fasttext

1779-孙同学

发表文章数:101

首页 » 算法 » 正文

前言:

如果需要对基础概念不了解,可以参考这里。我汇总了论文中涉及的大部分概念,以便更好的理解论文。

1. Paper:

Bag of Tricks for Efficient Text Classification
对于高效文本分类的一揽子技巧

2. 动机介绍

结合深度学习的文本分类模型和机器学习的文本分类模型的优点,达到:

  • 速度快
  • 效果好
  • 自动特征工程

3. 背景介绍

  • 文本分类是自然语言处理的重要任务,可以用于信息检索,网页搜索,文档分类等。
  • 基于深度学习的方法可以达到非常好的效果,但是速度很慢,限制了文本分类的应用。
  • 基于机器学习的线性分类器也很好,有用于大规模分类任务的潜力
  • 从现在词向量学习中得到的灵感,我们提出了一种新的文本分类方法fasttext,这种方法能够快速的训练和测试并且达到和最优效果相似的效果。

4. 论文摘要

This paper explores a simple and efficientbaseline for text classification. 本文探讨了一个简单有效的文本分类基准模型。

Our ex-periments show that our fast text classi-fierfastTextis often on par with deeplearning classifiers in terms of accuracy, andmany orders of magnitude faster for trainingand evaluation. 我们的实验表明,我们的快速文本分类器(fierfasttext)在准确性方面通常与深度学习分类器不相上下,而且在训练和评估方面要快很多个数量级。

We can trainfastTextonmore than one billion words in less than tenminutes using a standard multicore CPU, andclassify half a million sentences among 312Kclasses in less than a minute。
使用一个标准的多核CPU,我们可以在不到十分钟的时间内训练出超过10亿个单词,并在不到一分钟的时间内将50万条句子从312k个类中分类。

5. 研究成果

Fasttext在多个任务上表现很好
NLP十大Baseline论文简述(六) -fasttext
Fasttext在效果很好的同时,速度非常快。

NLP十大Baseline论文简述(六) -fasttext

6. 研究意义

  • 提出了一种新的文本分类风阀–Fasttext,能够进行快速的文本分类,并且效果很好。
  • 提出了一种新的使用子词的词向量训练方法–Fasttext,能够在一定程度上结局OOV问题
  • 将Fasttext开源,是的工业界和学术界能够快速使用Fasttext

7. Fasttext模型

Fasttext模型和CBOW模型的区别和联系

联系:

  • 都是log-linear模型,模型非常简单
  • 都是对输入的词向量做平均,然后进行预测
  • 模型结构完全一下

区别:

  • Fasttext提取的是句子特征,CBOW提取的是上下文特征
  • Fasttext需要标注语料,是监督学习,CBOW不需要标注语料,是无监督学习。

目前Fasttext存在的问题:

  • 当类别非常多的时候,最后的softmax速度依旧非常慢
  • 使用的是词袋模型,没有词序信息

解决方法:

  • 类似于Word2vec, 使用层次Softmax
  • 使用n-gram特征

8. Fasttext模型优缺点

优点:

  • 速度非常快,而且效果还可以
  • 有开源实现,可以快速上手使用

缺点:

  • 模型结构简单,所以目前来说,不是最优的模型
  • 因为使用词袋思想,所以语义信息获取有限

9. 论文总结

关键点:

  • 基于深度学习的文本分类方法效果好,但是速度比较慢
  • 基于线性分类器的机器学习方法效果还行,速度也比较快,但是需要做烦琐的特征工程
  • Fasttext模型

创新点:

  • 提出另一种新的文本分类模型—Fasttext模型
  • 提出了一些加快文本分类和使得文本分类效果更好的技巧 – 层次softmax和n-gram特征
  • 在文本分类和tag预测两个任务上取得了又快又好的结果

启发点:

  • 虽然这些深度学习模型能够获得非常好的效果,但是他们在训练和测试的时候非常慢,这限制了他们在大数据集上的应用
  • 然而,线性分类器不同特征和类别之间不共享参数,这可能限制了一些只有少量样本类别的泛化能力。
  • 大部分词向量方法对每个词分配一个独立的词向量,而没有共享参数。特别的是这些方法忽略了词之间的内在联系,这对于形态学丰富的语言更加重要。

未经允许不得转载:作者:1779-孙同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《NLP十大Baseline论文简述(六) -fasttext》 发布于2021-10-13

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录