2021-02-15

1411-李同学

发表文章数:148

首页 » 算法 » 正文

信息抽取介绍 Information Extraction

1、信息抽取概要 (IE)

Extraction information from unstructured text(非结构化数据)

  • 图片
  • 文本
  • video
  • 音频

抽取实体(entities):

  • 人,地名,时间
  • 医疗领域:蛋白质,疾病,药物

抽取关系(relations)

  • 位于 located in
  • 工作在 work at
  • 部分 is part of

先做实体抽取,再做关系抽取

2、信息抽取应用场景

2.1 一个例子

  • 1、NER: 标记所有的实体和每个实体的类别
  • 2、**关系抽取分析:**找到实体间的关系
  • 3、指代消解,每个代词指代的是哪个名词。

2021-02-15

2.2 More application

  • 知识库的搭建
  • Google scholar
  • 购物引擎,产品搜索
  • 正确分析
  • 问答案系统

2.3 Search Engine vs Question Answering

  • Question Answering:用户输入问题,系统直接给定answer
  • Search Engine:用户需要自己筛选

问答系统的等级

  • level 1: 返回文档
  • level 2:返回关键句子
  • level 3:返回key phrase
  • level 4: 返回答案

3、命名实体识别介绍

3.1 概念

命名实体识别,简称NER,又称作专名识别,是指识别文本中具有特定意义的实体,主要包括任命,地名,机构名,专有名词等。

3.2 Case 1: Chat bot

2021-02-15

先做意图识别:文本分类
第一次抽取实体:北京,伤害
第二次抽取实体:11月16日

3.3 Case 2:Extract from news

2021-02-15
2021-02-15

4、搭建命名实体识别 NER分类器

  • 定义实体种类
  • 准备训练数据
  • 训练NER

2021-02-15
给定word, 词性和实体类别,O为不需要关注的单词,多个单词构成一个实体类别。

4.1 评估 NER Recognizer

  • 精确率和召回率
  • F1-score

4.2 Methods

4.2. 1 rule-based approach 利用规则

2021-02-15

4.2.2 Majority voting approach 投票表决

2021-02-15
选择概率最大的实体类型

4.2.3 基于监督学习的方法

  • 1、非时序模型,逻辑回归,svm
  • 2、时序模型:HMM,CRF, LSTM-CRF

针对一个单词,使用特征工程,提取特征,得到feature vector,输入到模型得到分类结果。

比如,应用随机森林进行分类,将一个单词是否是标题,是否有大写,它的词长度等作为feature,输入到模型进行训练,得到分类结果。这种特征提取没有考虑上下文信息。

5、文本的特征工程

对于一个句子的特征提取: The professor Colin proposed a model for NER in 1999
1、Bag-of-word features

  • 当前词:Colin:
  • 前后词:professor,proposed
  • 前前,后后词:the, model
  • Bi-gram: Professor Colin,Colin proposed,the professor, proposed model

2、词性的feature

  • 当前词词性:名词
  • 前后词词性:名词,动词
  • 前前后后词性:冠词,名词

3、前缀后缀

  • 当前词:Co,in
  • 前后词:pr,or;pro, ed

4、当前词的特性

  • 词长
  • 包含有多少个大写字母
  • 是否大写开头
  • 是否包含“-”
  • 是否包含数字

5、 stemming
对单词做stemming后重复上面四个操作

6、特征编码 Feature Encoding

对于当前词的词性:Loc,需要把这个词性转变为one-hot encoding,但会使特征的维度变大很多很多。

常见的特征种类:

1、类别型的特征,使用one-hot encoding

  • 男女
  • 动词,名词

2、连续性的特征

  • 身高
  • 温度
    可以直接使用做归一化,还可以转为高斯分布N(0,1)
    做discretize,按区间做分类。

2021-02-15
3、Ordinal Feature 与ranking 相关的

2021-02-15
通过特征只能了解到顺序,但无法了解具体的差别。一个同学考试拿A,一个拿B,不知道他们具体差了多少

  • 方法1:直接使用
  • 方法2:当作categorical feature使用
    2021-02-15

7、关系抽取介绍

7.1信息抽取任务:

2021-02-15

通过NER抽取出张三,北京大学和北京三个实体

使用三元组保存实体之间的关系。——RDF Store

2021-02-15

7.2 Automatic Content Extraction(ACE)

2021-02-15
知识图谱:包含多种关系类型+包含多种实体类型

Ontological Relation(本体关系)

  • IS-A (hypernym relation)
  • instance-of

7.3 关系抽取方法介绍

1、基于规则
2、监督学习
3、半监督-无监督学习

  • Boostrap
  • Distant Supervision
  • 无监督学习

8、基于规则的方法

8.1 举例 “is-a”

2021-02-15
2021-02-15

8.2 Benefits and Drawbacks

优点:

  • 准确
  • 不需要训练数据

缺点:

  • low recall rate
  • 人力成本
  • 规则本身难设计

9、基于监督学习方法

1、定义关系类型
2、实义实体类型
3、训练数据准备

  • 实体标记好
  • 实体之间的关系

同时考虑两个单词的特征,构造特征放入算法进行分类。

9.1 特征工程

1) Bag of word feature:

American Airline, Tim Wanger,以及bigram,trigram特征

2)中间部分特征

a unit of Amr, immediately, match the move, spokesman

3) pos feature:词性相关特征

名词/动词/,也可以加入bigram或者中间部分的词性

4)实体类别特征

American Airline: OGR
Tim Wanger: PER

5) Stemming

6)位置相关信息

  • 两个实体间包含了多少个单词?
  • 这句话在本文中的位置

7)句法分析相关特征

计算两个节点之间最短路径
2021-02-15

8)依存文法相关

w1,w2,w3,w4,w5
分析出每个单词和其他单词的关系

  • shortest path
  • 0/1

9.2 Classification Model

2021-02-15
SVM,神经网络
2021-02-15

  • 先做二分类,看单词之间有没有关系:k+1类
  • 如果有关系,再用模型2做多分类问题:k类
  • 模型会更加简单,大部分的实体会被model1 过滤掉

10、Bootstrap 方法

11、Distant-supervision方法

12、无监督学习

13、实体消歧

14、实体统一

15、指代消解

16、句法分析

17、CKY 算法

未经允许不得转载:作者:1411-李同学, 转载或复制请以 超链接形式 并注明出处 拜师资源博客
原文地址:《2021-02-15》 发布于2021-02-15

分享到:
赞(0) 打赏

评论 抢沙发

评论前必须登录!

  注册



长按图片转发给朋友

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

微信扫一扫打赏

Vieu3.3主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录