我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 语义合一 >

等【】又进一步加入了从句子的简化准逻辑形式导出的谓词语义属性

归档日期:07-14       文本归类:语义合一      文章编辑:爱尚语录

  等【】又进一步加入了从句子的简化准逻辑形式导出的谓词语义属性 该属性定义了连接两个实体之间路径上的 谓词序列 并且使用了数量多达个的语言特征 基准数据的个大类和个小类的关系抽取中指数分别达到了 等通过合一的特征空间表达形式来研究不同特征对关系抽取性能的影响 其中特征空间可划分为序列、句法树和依存树等

  等【】又进一步加入了从句子的简化准逻辑形式导出的谓词语义属性 该属性定义了连接两个实体之间路径上的 谓词序列 并且使用了数量多达个的语言特征 基准数据的个大类和个小类的关系抽取中指数分别达到了 等通过合一的特征空间表达形式来研究不同特征对关系抽取性能的影响 其中特征空间可划分为序列、句法树和依存树等特征子空间。在 基准语料库上的个大类的关系抽取中 其实验结果表明 从三个子空间中提 取出的基本单元特征能取得较好的性能 而再加入复杂的特征所带来的性能提高很 只有当不同子空间和不同复杂度的特征结合起来时才能取得最好的性能 综上所述基于特征向量的方法尽管速度很快 也很有效 然而 由于实体间语 义关系表达的复杂性和可变性 要进一步提高关系抽取的性能已经很困难了 因为很 难再找出适合语义关系抽取的新的有效的词汇、句法或语义特征。 二基于核函数的机器学习方法 当前机器学习领域的一个热门课题就是核函数的研究和使用。与基于特征向量的 方法不同 基于核函数的方法不需要构造固有的特征向量空间。在关系抽取中 基于 核函数的方法直接以结构树为处理对象 来计算它们之间的相似度 再使用支持核函 数的分类器进行关系抽取。 等最早提出了使用核函数的方法来实现语义关系抽取。该方 法首先在文本的浅层句法树的基础上定义了树核函数 并设计了一个计算树核函数的 动态规划算法 然后通过支持向量机和表决感知器 分类算法来抽取实体间语义关系在篇来自新闻机构如美联社、华尔街日报等 的文本语料库中进行了两个简单任务的测试 取得了不错的结果。 等通过一些依存规则如主语依存于谓语、形容词依存于它所 第章绪论 命名实体间语义关系抽取研究 修饰的名词等将包含实体对的句法分析树转换成依存树 并在树节点上依次增加词 性、实体类型、词组块、上位词等特征 然后定义了基于依存树的核函数并 使用分类器进行关系抽取 基准数据上的个关系大类的抽取中指数取得了 核函数简单地计算在依存树中两个实体之间的最短路径上的相同结点的数目虽然在基准数据中的个大类的关系抽取中指数取得了 但是其召回 率却只有 。同等】的方法一样 这两个核函数首先要求相匹配 的实体在树中具有相同的高度且到达根结点的路径相同 因而它们共同的问题是准确 率虽然提高了 但召回率却较低。 为了解决核函数方法中所存在的低召回率的问题 研究人员尝试利用卷积核函数 】来实现关系抽取。所谓卷积核函数 是通过计算两个离散结构之间的相同子结构的数量来比较它们之间的相似度。和【】提出了基于字符串序列卷积核函数等 】的关系抽取方法 它首先提取出两个实体之间和前后一定数量的单词组成字符串并 把它作为关系实例的表达形式 然后通过比较两个序列中的公共子序列的数量来衡量 两者的相似度子序列中允许包含间隔项 进而实现关系抽取。不过 基准数据上的个大类的关系抽取中指数仅取得了这可能是由于序列 中只利用了词汇、词性和实体类型信息 并未考虑实体之间的结构化信息。等贝利用卷积树核函数 】来计算包含实体对的句法树之间的相似度从而抽取语义关系。 该方法将卷积树核函数和线性核函数与实体属性相关 如实体类型等结合起来 基准数 综合考虑了影响实体间语义关系的平面特征和结构化特征 。该方法探索了种不同的结构化句法信息对关系抽取性能的影响其中两个 实体间的最短路径所包含的树 取得了最佳性能 不过删除了所有的上下文信息 包括能反映关系本质的上下文信息 因此它还 不是理想的结构化句法信息。第章绪论 命名实体问语义关系抽取研究 等【】将语义关系实例表达为上下文相关的最短路径包含树 它能根据句法结构动态扩充与上下文相关的谓 词部分 并采用上下文相关的核函数计算方法 即在比较子树相似度时也考虑根结点 的祖先结点。将该核函数同基于特征的方法结合起来 充分考虑结构化信息和平面特 征的互补性 基准数据的个关系大类和基准数据上的个关系大类的抽取中指数分别达到了 。不过只考虑了与谓词相关 的上下文信息 仍不能涵盖大部分的上下文信息 并且同一样 其内部还存在 着一部分与实体语义关系无关的噪音。 总而言之 基于核函数的方法可以充分利用序列化数据中的长距离特征和结 构树中的结构化特征 这使得基于核函数的方法理论上可探索隐含的高维特征空间。 因此 虽然基于核函数的方法有一个致命的缺点 即训练和预测的速度太慢 人们仍 然希望通过对核函数特别是树核函数的进一步研究和应用来获得关系抽取的成功。 弱指导学习方法 由于有指导的方法需要大量的标注语料库 而标注语料库的获得需要一定人力和 物力 因此如何仅提供少量的资源来进行信息抽取就变得越来越重要了。目前在关系 抽取领域使用的弱指导方法主要有自举方法、协同训练和标注传播等方法。 自举方法】【】 也叫做自扩展技术 是一种被广泛使用的 用于 知识获取的机器学习技术。自举学习方法是一种循序渐进的学习方法。只需要很小数 量的有用数据 或者说种子 以此为基础 通过一次又一次的不断的学习 把小数量 的基础进行有效的扩大扩充 最终达到需要的数据信息规模。自举方法在自然语言处 理的各个方面得到了广泛的应用 并有很多成功的例子。 】利用自举方法进行命名实体之间的关系抽取 该系统称 。通过人工的方式事先找到少量具有某种关系的命名实体对实例作为种子 通过发现那些与种子上下文中具有相 同模式的命名实体对 对关系种子进行扩展。从网页中对书名和作者这样 的关系进行了抽取 取得了较好的效果。不过 由于根据模式的特殊性 来选择所产生的模式 因而其可靠性很难得到有效的保证。年 第章绪论 命名实体问语义关系抽取研究 等【】【】对的方法进行改进 提出了系统。该系统在 关系抽取时首先对命名实体的类型进行了标注 通过限定两个命名实体类型的方法来 改进的方法 并且对模式的定义更加灵活。更为重要的是 在产生模式后 需对它们进行置信度评估 相应地可计算出由这些模式所产生的关系 实例的置信度 从而剔除其中置信度较低的关系实例 避免它们进入下一次的循环。 通过这样的改进 在抽取组织机构及其所处地理位置的关系时 召回率和准确率都得 到了提高。不过 和系统都采用基于规则的模式匹配来发现新的关 系实例 难以适用于具有关系类型种类较多的通用语义关系的抽取如中的关 系抽取任务。 提出了采用协同训练】思想的】方法 来进行弱指导语义关系的分类。鉴于在语义关系抽取方法很难找到两个充分独立的视 首先从一个大的特征集中随机抽取出含有一定数量的特征子集作为一个视图 这样多次采样就能产生多个视图。然后使用种子集上的数据训练多个分类器 再用这些分类器对未标注实例进行分类 从而可找出置信度较高的关系实例加入到种 语料库上的实验表明 当初始种子集大 子集中进行下一轮的迭代。在 小为时 关系分类准确率为 。如何选择一个理想的初始种子集 如何更好 地控制迭代过程中的错误实例的数量 这是该方法所存在的两个主要问题。 标注传播算法 则是一种基于图的弱指导学习方法。 会议上等】将该方法应用于语义关系的抽取。将标注实例和 未标注实例表示为连通图中的结点 将实例之间的相似度表示为邻接边的权值 然后 将标注信息从任意一个结点通过它的邻接边传递到它的邻接结点 并不断重复以上迭 代过程 最后当传播过程收敛时就可以推断出未标注实例的标注信息。在 语料库上的测试结果要比【】的性能高得多 说明算法在关系 抽取方面具有一定的优势。然而算法需要耗费较大的存储空间和较长的运行时间 并且初始种子集即传播源的选择依然是一个未解决的重要问题。 总之 弱指导学习方法在语义关系抽取方面具有很大的潜力 它可以大大减少学 习过程中所需要的标注语料库的规模 不过其存在的主要问题是如何进行初始种子集 的选取、如何控制迭代过程中的噪音干扰以及进一步探索新的弱指导学习方法。第章绪论 命名实体间语义关系抽取研究 无指导学习方法 无指导方法在语言信息处理的其他领域等 都有成功的应用 方法在信息处理的过程中不需要任何的人工指导或干预因而可以全自动地对信息进 行抽取。不过在信息抽取这一领域 利用无指导的方法进行语义关系的抽取还刚刚起 掣】在会议上提出了一种无指导的命名实体关系抽取方法。将大量文本中同一命名实体对的所有上下文收集起来 并把这些上下文作为语 义关系的特征 然后采用全连通聚类的方法将特征相似度较高的命名实体对聚集在一 最后从一个聚类中选择出现频率最高的词作为该类关系的名称。采用该方法在纽约时报语料库上的实验结果表明 两种语义关系的抽取相当有效 其指数分别达到和。 上述方法将两个特定命名实体对之间的上下文都累加起来 为了避免特征的稀疏 问题 它不考虑出现次数少于的命名实体对 因而湮灭了这些命名实体对之间潜 在的语义关系。针对这个问题 等人选取了包含实体对的最小句法 树作为关系实例的结构化特征 并使用简化的核方法等 【】计算关 系实例之间的相似度 然后采用组平均聚类算法产生语义关系。在同样的年纽 约时报语料上 该方法能有效地发现高频和低频命名实体对之间的语义关系 相比 等】的实验结果 其指数提高了将约个点。不过 在无指导 关系抽取中 聚类数目的确定和代表关系类别的词汇选择方面仍然存在着问题。 等对的方法进行了改进。他们将每一个命名实体对的 上下文 而不是所有相同的命名实体对 作为它们之间的语义关系的特征。在聚类时 先采用基于熵值的方法等 对词汇特征进行排序 从而提高特征集 空间的搜索效率。在确定命名实体对之间关系的数量和特征集大小时 利用多次取样 方法通过反复的实验寻找目标函数的最优值 从而找到最自然的关系个 数及其相对应的特征集。最后 利用判别类型匹配方法 来衡量一个特征在某个聚类中的重要性从而选择 最重要的特征作为某类关系的名称。在语料库上的实验表明 该方法在 同等】的方法相比 性能有大幅度的提高。 命名实体间语义关系抽取研究 第章绪论 中文语义关系抽取 从理论上讲 在英文语义关系抽取中使用的原理和方法也同样适用于中文的语义 关系抽取。但由于中文语义关系抽取的研究工作起步较晚 内容也较少 因此其方法 基本上都集中于指导性的统计机器学习方法 包括基于特征的方法和基于核函数的方 法两大类。 最早使用机器学习方法实现中文实体间语义关系抽取的是中国研究中心的 他们在上演示了 个抽取中文命名实体及其 关系的信息抽取系统。该系统首先提取关系实例的句法 词汇或句法 语义特征如 】从训练语料库中构造关系信息增益树最后根据待抽取关系实例的相应特征在关系信息增益树中搜索 最佳匹配 从而确定该关系实例的类型 因此该方法本质上属于基于特征的学习方法。 它在人工标注的篇商业新闻语料的关系抽取测试中 对于 对于基于特征的中文语义关系抽取而言其关键问题仍然是如何选择有效的词 汇、句法和语义等特征。车万翔等】提取了实体的类型 类、两个实体间 的位置关系、两个实体前后的词汇等信息 然后采用方法进行训练和分类。在中文语料库上的七个大类的关系抽取实验表明 其最好的指数达到了 。董静等】则进一步将关系实例划分为包含实体关系和非包含实体关系 并在词汇、实体类型和相对位置等特征的基础上对非包含实体关系再加入句法结构信 息如两个实体的祖先结点、实体之间的路径、依存动词及实体到依存动词的路径等。 采用条件随机场 方法在 中文语 料库上的关系抽取测试中 最佳指数达至 】进一步探索了实体间的结构关系对抽取性能的影响 他们将 语料库中的所有关系实例按 照实体间结构关系分成个大类即包含关系、邻近关系和分隔关系等和个小类 再分别在不同结构类型上进行训练和测试。分类时采用基于字的一元或二元上下文特 从而避免了中文分词的错误对关系抽取性能的影响。同时再通过一些启发式规 这三个指数由本文作者根据和第章绪论 命名实体间语义关系抽取研究 则来校正统计学习器产生的分类结果。实验结果表明 语料库的个大类关系抽取上的最好指数为 。不过 在目前基于特征的语义关系抽取中 词汇语义和其它语义特征都没有很好地利用过 这是由于语义相似度往往是一个连续 实数值 很难把它转换成一个离散的二元特征。 在基于核的中文语义关系抽取方法中 的核函数都是基于比较中文词串的相似度并在比较过程中考虑了一定的词汇语义相 似度。前者采用词串之间的编辑距离作为关系实例的相似度 同时利用《同义词词林》 】来计算两个单词之间的语义相似度然后再利用分类器 进行关系抽取。在《北京青年报》的篇文本语料库上进行了人物雇佣关系的抽取 实验表明 其指数达到了 。后者则利用卷积核函数中的字符串序列核函数 用基于《知网》的词汇语义相似度计算方法刘群和李素建来获得两个 单词之间的相似度 最后使用最近邻居法 对未知实 例进行分类测试。通过对定义的三大类六个小类的实体关系抽取的实验结果显 其算法平均指数达到比未采用语义相似度的序列核函数的方法高出约 这说明语义信息对中文语义关系抽取确实有一定的作用。等初步探索了卷积树核等 】和最短依存树核和 【】在中文语义关系抽取中的应用 不过 中文语料库上的测试结果却显示 指数同相应的英文语义关系抽取相比 还相当低。当然这并不说明核方法 本身有问题 而只能说明在中文关系抽取中较难找到能合理和确切表示语义关系的结 构化信息。 说的来说 在中文语义关系抽取的研究中 一方面是研究人员采用的语料库及方 法的可比性相对较差 往往难于判断方法本身

  命名实体间语义关系抽取研究(可编辑),命名实体识别,命名实体,中文命名实体识别,实体编辑 差集,语义学,语义分析,语义网,语义网络,形式语义学

本文链接:http://furymagazine.com/yuyiheyi/166.html