Deep Learning Specialization on Coursera

中文依存句法分析概述及应用

+3 投票

句法分析是自然语言处理领域的一个关键问题,如能将其有效解决,一方面,可对相应树库构建体系的正确性和完善性进行验证;另一方面,也可直接服务于各种上层应用,比如搜索引擎用户日志分析和关键词识别,比如信息抽取、自动问答、机器翻译等其他自然语言处理相关的任务。

短语结构和依存结构是目前句法分析中研究最广泛的两类文法体系。这里先大概介绍下依存结构。

依存文法最早由法国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中提出,对语言学的发展产生了深远的影响,特别是在计算语言学界备受推崇。

依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构,主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何成分的支配,所有受支配成分都以某种依存关系从属于支配者。

在20世纪70年代,Robinson提出依存语法中关于依存关系的四条公理,在处理中文信息的研究中,中国学者提出了依存关系的第五条公理,如下:


1、一个句子中只有一个成分是独立的;
2、其它成分直接依存于某一成分;
3、任何一个成分都不能依存与两个或两个以上的成分;
4、如果A成分直接依存于B成分,而C成分在句中位于A和B之间,那么C或者直接依存于B,或者直接依存于A和B之间的某一成分;
5、中心成分左右两面的其它成分相互不发生关系。



句子成分间相互支配与被支配、依存与被依存的现象普遍存在于汉语的词汇(合成语)、短语、单句、复合直到句群的各级能够独立运用的语言单位之中,这一特点为依存关系的普遍性,依存句法分析可以反映出句子各成分之间的语义修饰关系,它可以获得长距离的搭配信息,并与句子成分的物理位置无关。

:LTP依存分析模块所使用的依存关系标记含义 (http://ir.hit.edu.cn/demo/ltp)
依存关系标记(共24个)
定中关系ATT(attribute)
数量关系QUN(quantity)
并列关系COO(coordinate)
同位关系APP(appositive)
前附加关系LAD(left adjunct)
后附加关系RAD(right adjunct)
动宾关系VOB(verb-object)
介宾关系POB(preposition-object)
主谓关系SBV(subject-verb)
比拟关系SIM(similarity)
核心HED(head)
连动结构VV(verb-verb)
关联结构CNJ(conjunctive)
语态结构MT(mood-tense)
独立结构IS(independent structure)
状中结构ADV(adverbial)
动补结构CMP(complement)
“的”字结构DE
“地”字结构DI
“得”字结构DEI
“把”字结构BA
“被”字结构BEI
独立分句IC(independent clause)
依存分句DC(dependent clause)

关于中文句法分析的应用,工业界我知道的百度和雅虎都有尝试,

百度的query分析,雅虎利用句法信息做多粒度切词等等。

大家还知道有什么其他的应用吗?

时间: 2012年 6月 24日 分类:自然语言处理 作者: shinchen (220 基本)
重新设置分类 2012年 6月 24日 作者:fandywang
谢谢shin的参与!
赞shin,句法分析、用户行为定向大牛!

期待更多的指导和分享!

可以详细介绍下“雅虎利用句法信息做多粒度切词”,并推荐一些相关资料?

这儿能上传ppt或者pdf的附件吗?这样以前做的资料就可以发出来方便大家参考
汗,fandy折煞我了:)
是我面试雅虎的一个员工时了解到的,没有太多的书面资料,仍是偏研究
可以放在其他网站(如个人主页、百度文库等),在这里使用超链接

2个回答

+1投票
我现在想将依存关系用于识别评价对象,比如“这个相机很不错”,“相机”和“不错”会构成一组评价搭配,而且是SBV关系,利用情感词典识别出“不错”,再找到“相机”,不过感觉这个想法还不成熟,因为有些极性词在句子中可能不充当评价词的角色,而且目前数据规模有限,有数据稀疏的问题,同时在评价搭配中出现的评价对象最多占整个评价对象的1/3.所以估计得到的效果不一定好。不知道师兄们有没有什么建议?
已回复 2012年 6月 24日 作者: Freedom沛公 (170 基本)

 

将依存关系用户识别评价对象的想法非常好啊!赞一个

SBV主谓关系的主体中,可以是人(我吃苹果),也可以是物(相机不错)。将这一关系应用到评价对象时,主体应更多的指物(如相机),这里可以有一个评价对象的主体词表限制SBV关系的范围。

“有些极性词在句子中可能不充当评价词的角色”给几个例子?

“在评价搭配中出现的评价对象最多占整个评价对象的1/3”没出现的给个例子?

另外,关于识别评价对象,是否用语义依存会更好呢?

确实应该考虑主体的类别,这点我还没注意到呢,还是鑫哥经验丰富,呵呵,我观察语料还不够啊。

说说我的任务吧。我主要是想从评论语料中获取评价对象,做成一个类似词典的资源,“挖掘”为主,而不是“识别”,所以师兄说的“评价对象的主体词表“实际上也是我们想要的。对于师兄提到的这个问题,我们也可以用一个分类器,抽一些特征来区分下人和物。

评论中”镜头的锐度一般“,像”一般“这样的词,是做评价词的,但”一般“有时候不是以极性词出现的。比如”一般来说“,所以可能需要先对评价词词典做一个过滤。

评论中有提到”镜头由滑盖保护“,虽然在这里没有出现极性词,但”镜头“和”滑盖“是相机领域的评价对象。我们统计语料发现评价搭配中的出现的评价对象最多占整个评价对象的1/3.

师兄说的语义依存我还不是很了解,LA组是在做,不过好像还没有到实用阶段吧。
依存关系解析可以用于评价分析,不过有几个需要注意的地方。

1. 依存关系解析属于通用的自然语言处理处理技术,并基于统计学习,corpus是基于upenn的treebank来做训练的。这里评论的用语形式和treebank中对应的各种如WSJ的新闻用语可能不一样,导致依存关系解析错误。因此需要尽量避免复杂句,同时通过类别或实体识别以及属性抽取等将句子中的成分尽量切的比较粗粒度(基于NER或chunking)。

 

2. 评价对象分析的主要输出形式如(对象,属性,属性评价,极性)这样的四元组,因此需要利用词典或知识库来对前三者进行抽取,最后的极性应该是基于上下文的分析。而这里知识库或词典的准备至关重要,而他们反过来也可以辅助对复杂句中的各种成分进行识别,利于粗粒度切分,并简化依存关系解析的难度。

 

3. 评价对象分析属于sentiment analysis(情感分析)的范畴,一般评论具有站点特殊性,用通用的方法做,往往准确率和查全率都不高。因此,常用的做法是利用有限的种子做站点相关的抽取模式(site-specific extration pattern),在抽取的模式中可以将依存解析作为一种特征(参见UW大学wufei在ACL上发表的open information extraction using wikipedia的思路)。

希望上述三点建议对你有用。
谢谢师兄的建议,我受到很多启发。

我们之前用识别NP的方法做识别评价对象的实验,语料是新闻语料,在分词后,试着把NP作为评价对象的候选,发现识别的准确率其实是很高的,不过召回率太低,因为有很多评价对象实际上是单个词。然后标了一部分领域相关的训练语料,发现F值可以达到一个比较高的水平了。

现在想做一个不用大量标语料的,所以才想利用依存分析,呵呵。

另外,师兄说的这种方法有点像boostrapping,通过不断地迭代,种子-模版-种子....不断完善词典。这个也是我们下一步的计划。不过现在思路不是很清晰,具体一些细节还要推敲。

我看看师兄推荐的这篇论文吧。
大家互相讨论吧。

这里相比bootstrapping来说,思想差不多,属于self-supervised learning的范畴。区别在于选用的特征以及迭代的次数选择以及置信度评估等。

其实,在实际应用中,简单的方法就会表现出很好的性能,至少可以解决80%的问题。

【从评论语料中获取评价对象,做成一个类似词典的资源,“挖掘”为主,而不是“识别“】—你把SBV的主语扔到百度去搜,如果返回有商业广告,就认为这个是物,这样是不是就挖掘出来了?可能有噪声,不妨先看看

嗯,利用搜索引擎也是个不错的方法。以后做的时候会考虑的。
我现在在做一个统计,看看评价搭配中的词、词性、句法有些什么样的规律,也许还能发现其他有趣的东西。呵呵
0 投票

请问是哪位中国学者提出了依存关系的第五条公理?

已回复 2012年 9月 18日 作者: 低飞的菜鸟 (140 基本)
NLPJob

Text Summarization

Keyword Extraction

Text Processing

Word Similarity

Best Coursera Course

Best Coursera Courses

Elastic Patent

本站架设在 DigitalOcean 上, 采用创作共用版权协议, 要求署名、非商业用途和保持一致. 转载本站内容必须也遵循“署名-非商业用途-保持一致”的创作共用协议.