“面向网络文本的多视角语义分析方法、语言知识库及平台建设研究”的开题报告.docx
面向网络文本的多视角语义分析方法、语言知识库及 平台建设研究 2013 年 1 月 25 日,由北京大学王厚峰教授担任首席专家的国家社科基金重大项目“面 向网络文本的多视角语义分析方法、语言知识库及平台建设研究” (批准号:12&ZD227) 开题研讨会在北京大学英杰交流中心举行。本次开题研讨会邀请北京语言大学李宇明教授、 教育部语言文字应用研究所冯志伟研究员、清华大学江铭虎教授、中国科学院计算技术研究 所高级工程师钱跃良高级工程师、北京语言大学华学诚教授作为评议专家,李宇明教授任专 家组组长。中国科学院院士、北京大学信息科学技术学院院长梅宏,北京大学社会科学研究 部副部长耿琴,子课题负责人和课题组主要成员约 30 人参加了会议。 王厚峰教授就课题的目标、相关研究现状、研究意义作了论证,对课题的研究内容与总 体框架、子课题的划分与任务、研究队伍及预期成果作了介绍,对研究基础、研究重点与难 点、进度安排作了汇报。课题划分为四个子课题:基于生成词库和论元结构理论的语义知识 体系设计、网络文本的多级加工与语言知识挖掘研究、基于群体智慧的知识资源加工技术及 众包平台研究、知识库与统计方法相结合的多视角语义分析。 该课题将以生成词库论、论元结构理论为指导,以多视角的语义融合为核心,向下指导 知识库的构建和多源异构文本的多层次加工,向上为网络文本的语义分析提供支撑,并通过 引入群体智慧设计众包平台为知识资源库的建设提供支持。 冯志伟研究员肯定了该课题在跨学科研究方面的重要意义,并提出了以下建设性意见。 1)众包平台是语言知识库构建的一个新尝试,但如何保证所构建的语料库的质量是一个难 点。2)生成词库理论是当代语言学理论的一个亮点,不同于传统语言学动词的核心地位, 突出了名词的地位,强调名词对整个句子的影响。建议将汉语名词物性结构是本项目的一个 研究重点。3)篇章语言分析是一个难点,RST 理论的语义关系是否完善,在汉语中应该作 出怎样的适应性改变。 江铭虎教授充分肯定了北大俞士汶教授《现代汉语语法信息词典》对汉语自然语言处理 的贡献,期待这个项目在已有的基础上作出踏实的工作。如何定义名词、动词、形容词知识 库的描述规范是需要仔细思考的问题。 钱跃良高级工程师指出,本项目的两个突出亮点,一是多视角的语义分析,二是众包平 台的使用。众包平台的具体实现会遇到难题,主要是如何保证质量,如何调动参与者的积极 性。可以借鉴开源软件的作法,在语料库上留下贡献者的名字。 华学诚教授认为,网络语言包含了非常复杂的语言现象。但是,网络文本非常多,而且 增长快,应对网络文本的类型和数量有一个清晰的界定。对名词的描述设定了 4 个角色, 这是英文的理论,是否有汉语文本分析的基础呢? 李宇明教授充分肯定了该课题的研究意义,同时也指出,课题的任务多,工作量大。希 望每个子课题在实施过程中要突出重点,不要面面俱到。希望本项目能够解决网络文本语言 信息处理的一至二个现实问题。项目的题目是“面向网络文本”,具体研究中应该如何来看 待网络文本的问题,是“面向网络文本”亦或是“基于网络文本” ,网络文本和规范性文本 还是有一些区别性特征的,要探寻网络文本后面隐藏的规律,要探寻语言层面和话语层面的 不同特征。话语方面的理解融入了更多的百科知识,而这些百科知识大多是有名词来承载的。 需要研究名词的组合性规律,在研究中要区分现实世界和可能世界。篇章方面,语言学研究 的还不够成分,希望计算语言学研究能有新的发现和突破,篇章结构中并列性关联是一个难 点。 王厚峰教授和几位子课题负责人吴云芳、孙栩、周韧分别对评议专家的建议作了回应, 项目组主要成员袁毓林教授也对相关的研究内容作了解释和现场演示。 课题组二位德高望重的教授陆俭明、俞士汶分别发言,并表示会尽力支持项目的研究。 特邀代表,北京大学哲学系周北海教授表示了对课题的兴趣,希望今后能加强合作。 王厚峰教授代表课题组向各位专家表示感谢,并表示在研究过程中将结合专家们提出的 建议,按照研究计划开展工作,要力争在中期评估中取得优异的成绩。(课题组供稿)

“面向网络文本的多视角语义分析方法、语言知识库及平台建设研究”的开题报告.docx
