有谁感兴趣汉语动词次范畴化自动获取么？

frank619 · 发表于 2005-4-8 16:08:11

动词次范畴化自动获取简介

   动词次范畴化自动获取的基本目的是构建以次范畴化框架的分布为只要描写形式的动词词汇知识库，最终目的是应用该词汇知识库于自然语言处理的各个领域，但这项工作的最直接目标则表现为对各种次范畴信息的自动识别、聚类和分类。次范畴化，按照一般语言学用法，特别是生成语法，指一个句法范畴的进一步划分。《句法要略》（Chomsky，1965）中，严格次范畴化（strict subcategorization）特征的功能是指定一类作用于深层结构动词和其它成分选择过程的限制，相关概念包括语类特征和选择特征。动词的句法行为取决于它的次范畴化特性，该特性一般表示为次范畴化框架（sbucategorization frame，& SCF for short）。
   SCF在现有的研究中基本上是句法框架，但也有少量研究引入了或参考了语义信息。谓语动词次范畴化基本上或多或少地纳入了如下几种信息：一、论元的数目和类型，即特定谓语动词在某一上下文中所要求的搭配成份和该成份的句法标志；二、谓词的意义，即特定谓语动词在某一次范畴框架中表现出的语义和部分语用；三、谓词论元结构的语义表示，即次范畴化框架本身句法所界定的语义特性或差异；四、句法层和语义层之间的关系映射，即动词的表现形式和意义、次范畴化框架的表现形式和意义等集合上的二元关系；五、选择倾向或限制，即动词在句法和语义上倾向于或不能选择哪一类成份作论元；六、谓补成分中可理解论元的控制，即次范畴化框架中哪些论元可以省略或替代而不影响语义理解；七、句型变换，即可以相互转换而不改变基本语义表达的不同次范畴化框架。其中，前两项是最基本的信息；第三项可以看做是根据句法意义对前两项的一种分类；第四项是在句法和语义连接（linking）层面上对前三项的进一步细化；第五、六项是对第一项在语义和语用上的补充；最后一项是特定谓语动词所有的SCFs集合上可能的一种等价关系。除此之外，大部分SCF研究成果还都收集了动词SCF基于学习语料的频率或概率分布。
   次范畴化方面的研究按语种来说，英语动词次范畴化信息获取的研究时间最长，研究内容也最为全面。英语次范畴化词汇知识库的建设经历了人工手写，从机读辞典（MRDs）中获取，从大规模真实语料中获取等三个阶段。人工手写或从机读辞典中获取的次范畴化词汇知识库目前应用较为广泛的有Miller发起的WordNet、Dorr基于Levin动词表的词汇概念结构（LCS）库和微软基于MRDs的MindNet。人工手写或从机读辞典中获取的次范畴化信息都存在一致性差、主观性强、覆盖面小、不易扩展、难以检测等缺陷，所以最近的研究主要侧重于应用统计方法从大规模真实语料中自动获取。其它语种，如德语、西班牙语、捷克语、葡萄牙语等，的研究基本参照英语相关研究的模式和方法。
   在过去十几年中，涌现了很多次范畴化自动获取的方法，这些研究方法的共同目标是：在给定语料中获取谓语动词的SCF类型和数目。处理过程的两个典型步骤是：首先，生成SCF假设；然后，进行过滤，选择可靠假设。各种研究之间也存在很大的差别。学习对象不同：有的只学习SCFs（Brent，1991，1993），有的还学习SCF的谓词相关频率（Ersan and Charniak，1996），还有学习SCF概率分布的系统（Sabine Schulte im Walde，2002）；次范畴化框架的约定不同：SCFs是否预设，预设多少SCFs，SCFs如何定义；用于训练或学习的资源不同：应用原始语料，还是部分分析的语料；启发信息也不相同：应用语言学知识预设，还是SCF先验概率分布。在谓语动词SCF的结构表示方面，各种次范畴化研究成果，包括人工手写的、从机读辞典中获取的和自动获取的次范畴信息，也有很大不同。并且有些开始较早的研究不称其研究对象为SCFs，如美国马里兰大学Bonnie J.Dorr的LCS（词汇概念结构），HPSG（中心词驱动短语结构语法）的动词词条表示等。（Korhonen，2001）自动获取的SCF包含了最多的信息，有模式、分类、频率和例句等。
   在哈工大MI&T实验室之前的汉语动词次范畴化的相关研究只限于格语法、配价语法、语义计算等理论方面和少量人工获取或规约性手写的动词功能规则。从某种意义上讲，这些工作还不能算作是动词次范畴化方面的研究，因为其句法或词法规则只包含前述七种谓词次范畴化信息中的一两种，并且也没有明确提出以汉语动词次范畴化为主要研究内容。较为系统的工作有：詹卫东（2000）的基于配价的汉语语义词典，由TransEasy汉英机器翻译系统课题组研究人员手工完成，花费了约8个人年的工作量，其中动词10788条，包括0价动词9个，1价动词4782个，2价动词6882个，3价动词115个；靳光瑾（2001）在她的HYLJ系统中根据手写规则从机读《动词用法词典》中提取动词功能库和部分动词配价库信息，尝试了动词释义（其实是句型变换）库的自动生成。此外，董振东、董强发起并组织人工创建的《知网》也一定程度上描述了大部分汉语动词的语义语法分类，并且Dorr（2000）把部分英语动词LCS同《知网》中的汉语动词根据WordNet语义做了映射。
   自2003年以来，该实验室在国家自然科学基金的支持下全面开始了汉语动词次范畴化自动获取的研究。到目前为止主要完成了如下几个方面的工作：
   一、汉语动词次范畴化框架的形式化描写机制确立为五元组<V, TA, NA, PA, CL>的形式，包括十一个类型的论元，和相应组合限制规则；
   二、预设了汉语动词可能进入的137个次范畴类型，提出动态最大似然（FML）的统计假设检验方法；
   三、在统计预设的基础上以语言学规则为启发信息生成SCF假设，而后应用统计方法进行假设检验，进行了从大规模真实文本中自动获取汉语动词SCF的较为系统性的初步实验；
   四、进行了对次范畴化框架和动词语义之间关系的初步研究，证明：尽管动词语义对次范畴化获取有一定指导意义，但动词次范畴化框架的句法性强于语义性；
   五、研究了《知网》、《同义词词林》和《现代汉语动词词典》等三大现有资源对汉语动词次范畴化自动获取的作用。

   次范畴化自动获取研究属于较新、较冷的研究方向，就其研究范围内来看，今后的研究热点将主要集中在：１．如何更好的应用语言学启发信息来生成高精确率、召回率的SCF假设，以及启发信息的可纳性探索；２．如何应用语义、语法，乃至先验SCF分布或其它偏置信息进行SCF假设的统计性或非统计性平滑或回退；３．寻找更好的或改进已有的统计过滤方法；４．向其它非英语言继续扩展；５．跨语言SCF研究；６．SCF词汇知识库的应用；等等方面。

Artvine · 发表于 2005-4-13 16:13:26

我很外行，但很有興趣；是否有測試的例子呢？望提供是盼！

frank619 · 发表于 2005-4-13 19:12:06

我们目前有用于汉语动词次范畴化自动获取的软件系统，和6000个常用动词的次范畴化词汇知识库，但这些东西的所有权属于自然科学基金委和哈工大，不能提供，请见谅。:shifty:我在下面给你几个例子，可供测试：
No.:119/Abr.:NvV/Cnt.:105
  SCF: NP V VP |{1,1,1,1,1,1}
  Prb.:0.002292705|0.002518046
  Example1(Verb:逃避): 他/r 用/p 假/a 的/usde 身份证/ng 逃避/vg 追捕/vg 。/wj
  Example2(Verb:养殖): 这/ZHE 批/q 牡丹花/ng 养殖/vg 成功/vg 了/LE 。/wj
No.:120/Abr.:Nv/Cnt.:4531
  SCF: NP V |{1,1,1,1,1,1}
  Prb.:0.04459387|0.10865968
  Example1(Verb:醉): 我们/r 在/p 老李家/nd 全/d 醉/vg 了/LE 。/wj
  Example2(Verb:尊重): 厂长/nc 对/p 我们/r 的/usde 意见/ng 很/d 尊重/vg 。/wj
No.:121/Abr.:PIv/Cnt.:4
  SCF: PP BIP V |{0,1,1,1,0,1}
  Prb.:0.000116632|9.59256E-05
  Example1(Verb:蜇): 脸/ng 上/f 被/BI 马蜂/ng 蜇/vg 过/GO 。/wj
  Example2(Verb:震惊): 全国/ng 上下/f 都/d 被/BI 这个/ZHE 消息/ng 震惊/vg 了/LE 。/wj

Artvine · 发表于 2005-4-16 07:25:38

二、预设了汉语动词可能进入的137个次范畴类型，提出动态最大似然（FML）的统计假设检验方法；三、在统计预设的基础上以语言学规则为启发信息生成SCF假设，而后应用统计方法进行假设检验，进行了从大规模真实文本中自动获取汉语动词SCF的较为系统性的初步实验；

(希望我使用的中文您能看懂)
一、首先，沒有一個東西是一直冷門的，熱門只是及時讓人發現爾已。
二、如果要作類似中介語言探針的程式，要在語文的前後左右(立體面)要算好Joints，尤其是有數價關係，那計算可能很繁雜。
三、如果對電腦有興趣的朋友可想想：什麼事都要用或然率嗎？要精確還是方便？
四、中文又是個問題(應說是CJKV)。如何反檢索？在Java/SQL/Mysql... 等DB作到CJKV的完善？
五、我知道做符碼切分的程式意義很濃(Segment)，但如果牽涉數價(簡單如詞性、複雜如給數值..................那意義在哪？
六、因無Demo，給的例子只看懂一半。
七、請說明測試環境。

小虾 · 发表于 2005-4-25 03:07:06

frank6196老弟是哈工大的吧，有几点疑问，望不吝赐教：
（1）不知抽取效果如何，有无相关的应用，比如机器翻译，比如句法分析，对系统的改善情况如何？
（2）能否简单的介绍一下“动态最大似然（FML）的统计假设检验方法”，主要针对什么问题，意义何在，当然没有必要对算法进行详细的说明，只是想了解一下你们的思路
（3）<V, TA, NA, PA, CL>中的符号表示什么意义？
（4）确定137个个次范畴类型是人工设置还是机器学习的结果？
（5）你们采用的语料有多大？能否简单的介绍一下，标注了哪些信息？

frank619 · 发表于 2005-4-28 18:11:24

要了解这些问题，有两篇文章您可以参阅一下。FML-Based SCF Predefinition Learning for Chinese Verbs，和Subcategorization Acquisition and Evaluation for Chinese Verbs，您可以在网上搜到它们，若不能，我可以发email给你。谢谢关注！

小虾 · 发表于 2005-4-29 06:54:33

烦请发到我的邮箱xiazy@bt-t.com
网上可以查到出处，不能下载原文。谢谢了先。

		自动登录	找回密码
密码			注册

有谁感兴趣汉语动词次范畴化自动获取么？

相关帖子

感兴趣又如何？