NLPJob

标签热度

机器学习 coursera 斯坦福大学 公开课 斯坦福 深度学习 自然语言处理 python 数据科学 andrew ng 数学 nlp 数据分析 数据挖掘 神经网络 大数据 计算机科学 英语 算法 deep learning 统计学 课件 数据可视化 机器学习公开课 机器学习笔记 google 机器学习视频 计算机 商业 推荐系统 数据结构 r语言 java 密码学 udacity 金融 免费电子书 电子书 公开课笔记 计算机视觉 商务英语 学术英语 python数据可视化 机器学习课程 机器人 ted 文本挖掘 r 视频 领导力 java编程 回归模型 excel 深度学习课程 mysql cousera公开课 统计 大数据公开课 ted公开课 ted演讲 线性回归 javascript mit 概率图模型 金融市场 tensorflow 学习英语 物联网 大数据专项课程 python入门 大数据课程 英语写作 英语学习 算法课程 强化学习 高级机器学习 kaggle 文本分析 机器学习资料 函数式编程 scala 游戏设计 cousera 机器学习系统 机器人公开课 开源代码 人工智能 普林斯顿大学 machine learning 线性代数 代价函数 软件工程 伯克利 管理 市场营销 财务会计 沃顿商学院 网页开发 网站开发 web开发 网络安全 python数据科学 商业分析 非对称密码学 对称密码学 应用密码学 大规模数据科学 英语听说 概率 机器学习基石 python机器学习 算法公开课 源代码 数学思维 社交网络分析 微积分公开课 杜克大学 机器学习公开课视频 公开课视频 coursera公开课视频 coursera公开课 贝叶斯 信息论 离散数学 宾夕法尼亚大学 neural networks 伯克利大学 密歇根大学 成本函数 梯度下降 云计算 编译器 自动机 cs101 daphne koller spark 软件 会计 英语交流 商业策略 风险管理 资产管理 地理信息系统 gis 卷积神经网络 面向对象编程 序列模型 移动应用开发 数据库 计算机通信 敏捷开发 高级商务分析 商务分析 商务英语课程 c语言 c++ 数据管理 投资 计算原理 计算基础 推荐系统导论 学术英语写作 android应用开发 android开发 android 机器人课程 机器人学 数据科学竞赛 yandex 深度学习公开课 深度学习书籍 数据集 机器学习资源 分布式 微积分 大规模机器学习系统 统计推断 数据科学公开课 游戏 数学思维公开课 机器学习课件 数学公开课 微积分公开课视频 微积分公开课下载 mit微积分 mit公开课 龙星计划 神经网络公开课 coursera视频 斯坦福公开课 windows ios udacity公开课 无人驾驶汽车 人机交互公开课 人机交互 正则化 过拟合 逻辑回归 模型思维 网易公开课 acl net 逻辑 cmu 情感分析 我爱公开课 引言 普林斯顿 经济 saas 52opencourse 逻辑导引 图模型 chirs manning dan jurafsky ppt 编码 时间序列 go语言课程 go语言 工程师 语法 区块链基础 区块链 网页设计 软件开发 商务基础 运营管理 商务 机器学习实战 数据系统 投资管理 swift 计算机安全与系统管理 系统管理 计算机安全 seo策略 seo工具 seo 组织领导力 css3 html5 会计基础 c sharp 英语沟通 并发 并行 全栈开发 数据仓库 商业智能 投资策略 金融基础 数据工程 python零基础 安全系统 现代密码学 硬件安全 软件安全 网络安全基础 递归神经网络 信息检索 云计算网络 云计算应用 云计算基础 云计算概念 分组交换网络 局域网 创意写作 写作 数学基础 台湾大学 基因序列 生物信息学 斯坦福算法课程 软件架构 软件设计 java程序设计 r语言基础 图论 组合数学 python数据表示 python基础 深度学习专项课程 游戏设计与开发 游戏开发 游戏设计概念 游戏设计艺术 angular 恐龙古生物学 恐龙 古生物学 推荐系统评价 jquery 英语语法 c# 高级算法 算法专项 iot python专项课程 python入门课程 商务英语交流技巧 商务英语交流 python社交网络分析 python文本挖掘 机器学习专项 金融价值 金融决策 金融公开课 数据结构与算法 大数据机器学习 大数据分析 商业与金融建模 金融建模 学术英语听说 数据分析工具 编程入门 编程 编程基础 算法思维 计算机基础 秘钥管理 hdfs 数据工程师 hive 3d交互设计 3d建模 虚拟现实 vr 洛桑联邦理工学院 函数式编程入门 数据科学课程 数据科学专项课程 学术英语课程 学术英语写作课程 斯坦福算法专项课程 斯坦福算法 python数据分析 英文简历 英文面试 英文写作 贝叶斯方法 商业分析技术 大数据建模 数据获取 数据清洗 文本挖掘课程 聚类分析 python公开课 python课程 主成分分析 深度学习资料 词意消歧 词义消歧 推荐系统入门 python书籍 机器学习算法 数据结构课程 图像处理 贝叶斯方法实战 深度学习源代码 sibyl p2p 机器学习书籍 数据结构资料 凸优化 推荐系统入门资料 数据科学导论 可视化 机器学习开源工具包 jane mcgonigal 公开课社区 挖课 courseminer 文本情感分析 多变量微积分 社会计算 数学分析公开课 概率图模型公开课 百度 吴恩达 香港科技大学 函数式语言 scala公开课 class2go coursera无法连接 coursera打不开 keith devlin 数学思维简介 社交网络 余凯 张潼 机器人视频 robert sedgewick 算法上 多伦多大学 莱斯大学 华盛顿大学 佐治亚理工学院 神经网络视频

Text Summarization

Keyword Extraction

Text Processing

Word Similarity

Best Coursera Course

+3 投票

偶然的机会看到一篇关系抽取的调研报告,介绍的还算全面,想想自己研究生期间也是搞此方面工作的,趁着余热还在,一时兴起,阅读总结下,与大家分享。一家之言,欢迎一起学习讨论

http://www.cs.cmu.edu/~nbach/papers/A-survey-on-Relation-Extraction-Slides.pdf

一、关系抽取简介

信息抽取的主要目的是将非结构化或半结构化描述的自然语言文本转化成结构化数据(Structuring),关系抽取是其重要的子任务,主要负责从文本中识别出实体(Entities),抽取实体之间的语义关系。

如:句子“Bill Gates works at Microsoft Inc.”中包含归属关系Person-Affiliation实体对(Bill GatesMicrosoft Inc),又如:

 

关系抽取的结构化数据可以用于自动问答系统、生物信息、知识推理、文摘等众多方面。

关系抽取任务常用的评测数据集当属Automatic Content Extraction (ACE),现已被归入Text Analysis Conference,作为知识库生成(Knowledge Base Population, KBP)的重要子任务。

二、主要研究方法

1)有指导的学习方法(Supervised approaches)

又称有监督的学习方法,主要包括两大类:基于特征向量的学习方法(feature-based)和基于核函数的学习方法(kernel-based)。这类方法将关系抽取任务看作一个分类问题,首先需要人工标注大规模训练语料库,然后在已标注好的语料库基础上进行特征抽取和选择,通过利用不同的机器学习算法训练学习分类模型,用于抽取新的实体对。

处理逻辑如下:对于有指导的学习方法,无论是基于特征向量的学习算法,还是基于核函数的学习算法,主要依赖于实体对上下文中的各种词法、句法、语义等信息,或者背景知识,提高算法的性能。所以,如何挖掘和有效使用更多对关系抽取更加有用的词法、句法、语义等特征,即特征提取和特征选择两个关键过程已经成为基于有指导的关系抽取方法的研究重点。

另外,近两年有人提出一种Distant Supervised的方法,它基于这样一种假设:如果已知两个实体存在特定的语义关系,那么包含实体对的句子在某种程度上就存在表征二者语义关系的作用。这种方法可以较好的融入现有的知识库,如wikipedia(infobox)、本体或者人工标注小规模实体对,将这些高质量关系实体对作为种子,从web中挖掘包含已知实体对的大规模文本,作为自动标注的语料库,然后使用Supervised的方法解决关系抽取问题。个人感觉这是个听有意思且实用的思路,尤其面对大规模数据挖掘问题,据我所知,企业界对此方法也屡试不爽,后续计划抽时间专门写一篇关于Distant Supervised的文章~

2)半指导的学习方法(Semi-supervised approaches)

又称半监督的学习方法或弱指导的学习方法,主要是基于种子的Bootstrapping方法,该方法首先需要根据预定义好的关系类型,人工构造对应的关系实例作为种子;然后,通过模式学习方法,迭代地生成关系描述模式集。

处理逻辑如下:

具有代表性的工作有:DIPRE、Snowball、KnowItAll、TextRunner,对比如下:

半指导的学习方法不需要人工标注语料库,所需要的只有构造初始关系种子集,然后利用Web或者大规模语料库信息的高度冗余性,充分挖掘对应的关系描述模式,并通过模式匹配抽取新的关系实例,准确、高效地完成关系抽取任务。但是,这种方法也存在几个关键问题,如:初始关系种子集的产生和选择方式、Pattern的组成方式、Pattern的质量评估、迭代过程的速度、高准确率低召回率等问题。

3)无指导的学习方法(Unsupervised approaches)

又称无监督的学习方法,这是一种自底向上的信息抽取策略,无指导的学习方法基于这样一种假设:拥有相同语义关系的实体对,它们的上下文信息较为相似,其上下文集合代表着该实体对的语义关系。

抽取过程大体分为三部分:

  1. 实体对及其上下文信息提取;
  2. 根据上下文信息对实体对聚类;
  3. 标注各个类的语义关系,即对关系类型进行描述。

但是,该方法产生的聚类结果一般比较宽泛,并且定义合适的类别比较困难,另外,该方法对低频的实体对处理能力有限,缺乏标准的评测语料,甚至没有统一的评价标准。

三、多元实体关系

又称高阶关系(Higher-order Relations),往往转化为多个二元关系处理。

四、未来可能的研究方向

  • 关系类型自动发现:目前的研究工作主要基于人工定义的关系类型体系抽取关系实体对,扩展性较差。所以,如何自动或半自动地建立一套合理的关系类型体系仍然是一个亟待解决的问题。
  • 关系推理及冲突消解 :目前的研究工作将每种关系类型看作一个独立的处理对象,而未考虑它们之间潜在的关系,如在父子和母子关系基础上可以推理出夫妻关系,在父子关系本身可以推理出祖孙关系,等等。另外,某些关系类型的实体对之间存在一定的约束条件,如夫妻关系必须是一对一,朋友关系可以是一对多,等等。是否可以考虑使用语义网(Semantic Web)进行数据的统一表示,并在其基础上实现关系的推理和冲突消解?
  • 领域自适应的关系抽取:目前的研究工作主要面向特定的关系类型或者特定领域,使用特定的语料库,很难做到领域自动迁移,所以,是否可以搞一套领域自适应的关系抽取研究框架,即Open IE。系统可以自动发现关系类型、挖掘关系描述模式、抽取实体对?或者在已有领域标注语料库基础上,使用迁移学习(transfer learning)的方法推广到其他领域?
  • 篇章级关系抽取:目前的研究工作主要以句子级实体之间的非等价关系为研究对象,从而丢失了大量的代词参与的关系,是否可以考虑引入等价关系,即共指消解处理结果,通过实体之间等价关系和非等价关系的融合和简单推理实现篇章级实体关系抽取,提高召回率,更好地对篇章进行理解。
  • 数据可视化
  • 社交网络挖掘
  • 信息抽取的应用:垂直搜索?知识图谱?自动问答?知识库建设?机器翻译?文摘?篇章语义理解?
  • ... ...

五、主要参考资料

分类:信息抽取 | 用户: (2.4k 分)
修改于 用户:
complex net!
好文章!

1个回答

0 投票
Thanks a lot!
用户: (25.0k 分)
最近想在ACE英文语料上做下关系抽取的实验,但是找不到免费的语料,不知道博主方不方便共享下,thanks a lot! 邮箱:guoruiaini1994@126.com
...