您好、欢迎来到现金彩票网!
当前位置:秒速牛牛计划 > 同位语素 >

汉语树库-码农场

发布时间:2019-07-17 08:56 来源:未知 编辑:admin

  本文旨在介绍CoNLL格式的中文依存语料库(汉语依存树库)、CoNLL格式相关工具,以及提供两个公开的中文依存语料库下载。

  最近做完了分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐,感觉HanLP初具雏形。现在希望拿下依存句法分析,这样我就做出了史上第一个个人开发的功能最全面的自然语言处理基础工具库了。

  谈到依存语料库,还是少不了介绍一下树库的类型。根据所描述结构的不同 , 树库大体上可以分为两类 : 短语结构树库和依存结构树库 。

  短语结构树库一般采用句子的结构成分描述句子的结构。在照抄定义之前,我更乐意给你看一张图作为例子:

  上图左边是可嵌套的语言规则与实例,右侧是它们的树状结构,更多理论。短语结构树包含了规则与依存双重信息,硬要说的话,叶子节点的词性也可算作第三种信息。

  依存结构树库是根据句子的依存结构而建立的树库。依存结构描述的是句子中词与词之间直接的句法关系,相应的树结构也称为依存树。比如哈尔滨工业大学汉语依存树库中的一个例子:

  这棵树看起来有些凌乱了,事实上,它可以投射(projective)为正常的线性句子“与上年同期相比,海上油田的年产能力增加了五十万吨”。又比如:

  依存结构树库的目的并不是探讨“句子如何产生”这样宏伟的命题,而是研究“已产生的句子”内部的依存关系。

  我认为依存结构树库最大的好处就是简单,从语料库的制作到解析,再到句法器的构建及性能都更容易把握。下文也仅介绍依存结构树库语料的下载以及编辑工具(好吧,事实上,我一介草民也只能弄到一点依存结构树库语料而已)。

  第二届自然语言处理与中文计算会议(NLP&CC2013)的技术评测样例中提供了一部分中文树库语料下载——

  内部包含了清华和哈工大提供的训练集和开发集,该会议到了第三届就不提供树库语料了,只有一些新闻分类和情感极性的语料,真遗憾。

  3 LEMMA 当前词语(或标点)的原型或词干,在中文中,此列与FORM相同

  6 FEATS 句法特征,在本次评测中,此列未被使用,全部以下划线 HEAD 当前词语的中心词

  在CONLL格式中,每个词语占一行,无值列用下划线;代替,列的分隔符为制表符\t,行的分隔符为换行符\n;句子与句子之间用空行分隔。

  楼主您好,我也觉得你这篇文章写得非常细致,对我做依存句式分析很有帮助,不过我想问问为什么我用Dependency Viewer分析清华大学语义依存网络语料库时,会出现错误提示框:ex was outside the bounds of the array?希望楼主能够帮我解答一下,应该如何使用Dependency Viewer处理清华大学语料库呢?

http://kaze-movie.com/tongweiyusu/518.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有