我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 语义树 >

一种新的语义相似度计算方法

归档日期:08-15       文本归类:语义树      文章编辑:爱尚语录

  .聊城大学计算机学院 ,山东 聊城 252059 .萨瓦大学计算机科学与知识工程研究所 ,法国 在信息检索领域,基于不精确的语义信息进行查询 ,需要用户多次进行筛选 ,降低了查 询效率 ,因此 ,语义相似度计算的精确性至关重要 .目前 ,人们主要利用概念词的距离、内容、属性 等信息进行语义相似度计算 ,其中综合距离 ,信息内容和概念词属性等因素的混合式语义相似度 计算方法是比较热门的方法 ,但该方法进行语义相似度计算时 ,权值的确定是根据专家的经验 人为的进行确定,具有一定的主观性 ,影响了语义相似度计算的准确性和客观性 .因此 ,本文提出 了一种新的混合式语义相似度计算方法 ,采用模糊优化的思想确定混合式语义相似度计算方法 ,避免了主观性,使语义相似度的计算更准确 ,查询结果更符合人们的需求 关键词本体 ,语义相似度 ,分词技术 ,语义扩展技术 中图分类号 TP301 文章编号1672‐6634(2015)02‐0088‐05 大数据给人们的生活带来许多方便 ,但也带来很多问题 ,例如在浩瀚的信息中查找到的信息不能满足 用户的需求 ,查询的结果不能正确的反应用户的查询意图等等 ,因此 ,大数据搜索引擎的智能化至关重要 目前常用的搜索引擎大多采用关键字匹配来进行查找,只能单一的匹配字形 ,不能很好的获取用户查询语 ,往往返回不精确的结果.语义相似度计算方法 ,可以在用户查询结果优化中起到关键作用 ,好的语义相 似度计算方法 ,能够准确获取查询语义 ,提高查询结果的准确性 .因此本文提出了一种基于本体的语义相 似度计算方法 ,以期提高查询的效率与精确性 研究现状语义相似度计算方法 ,主要用于web 语义 ,人工智能 ,知识工程 ,自然语言等领域 ,随着研究的进展目 前主要形成以下几种方式 :其基本思想是通过计算两个概念词在本体中的路径长度表示它们之间的语义距离 .语义距离越大 ,其语义相似度越低 ;反之 ,语义距离越小 ,其语义相似度越大 .典型 的代表算法有Shorted Path 算法、Weighted Links 算法、Wu Palmer算法、Leacock .虽然此算法计算复杂性最小,但是其主要不足之处是在计算的过程中假设本体分类体系中的每条边 处于同等重要地位 ,显然不现实 .针对复杂本体结构的语义相似度的计算 .Kim等人提出一个 CP/ CV 的概念传播方法 .在文献 提出了一个基于相关概念节点局部密度的概念向量模型来计算概念间语义相似度和相关度(简称 RNCVIVI 方法) :其基本思想是如果两个概念词共享的信息越多,则这两个词 的语义相似度越大 .反之 ,则越小 :Lord等人提出通过计算共享父节点所包含的信息内容来表示概念 第28 聊城大学学报(自然科学版)Journal LiaochengUniversity (Nat .Sci Vol.28 Jun.2015 收稿日期:2015‐03‐09 基金项目 :中法徐光启项目(34425PB) ,山东省自然科学基金项目(ZR2011FL023) ,山东省高校智能信息处理与网络安 全重点实验室(聊城大学)资助 通讯作者 ,E‐mail:weitong315@ 163 .com 词间的语义相似度;Resnik 使用共享父节点信息内容来计算概念 ;Lin 等人认为在考虑共享父节点信息 内容的同时还应该考虑概念词自身所包含的信息内容词间的语义相似度 ;Jiang 和Conrath 等人是直接 通过对语义距离的计算来表征被比较概念词间的相似度 :不同的事物是根据其自身的属性和特征来区分的,因此我 们可以通过计算两个事物的公有属性的多小来判断相似性 ,即公有属性越多 ,则语义相似性越大 .反之 .Tversky算法是该类算法的典型代表 ;Banerjee 、PedersenL 以及 Patwardhan 提出的基于概念释词的方法 ,也是基于属性的语义相似度计算方法 :实际上是对上述三种方法的综合考虑,既考虑位置距离的关系 虑到信息内容、概念词属性等因素,是比较全面综合的方法 .代表算法有 等人提出的SSA 算法等 .国外许多研究者对基于本体的语义相似度计算进行了研究 ,已经形成丰富的研究成果 OntoSeek :OntoSeek 系统是由Apple 与IBM 等公司开发的基于内容的语义检索系统主要用于产 品目录的检索 .Onto broker :Ontobroker 系统主要是基于本体对信息资源进行语义描述 ,通过语义相 似度计算方法检索 Web 中的XML 、HTML 、RDF 信息资源 .Tap :Tap系统是由IBM 公司与斯坦福大 学等科研机构共同开发的 ,利用语义相似度计算方法实现语义检索技术并将其应用到 Google 搜索引擎 :Swoogle是一个类似于Google 的搜索引擎 ,主要是搜索互联网上的语义文档以及相关的 术语和数据 ,获取相关的本体资源 ,通过语义推理构造出新的本体资源库 近年来,随着北京大学的邓志鸿等人在第18 届全国数据库学术会议上将本体技术引入到 web 信息 检索模型上 ,并对其功能语义的扩展 ,解决了web 信息处理 ,缺乏语义的问题 .语义相似度计算研究在国 内也取得了很好的成果 .万捷等人利用本体论知识提出了信息检索原型系统 .该系统通过基于本体的语义 相似度计算将用户的查询意图进行了语义扩充 ,提高检索结果的准确度 ,减小了冗余 .王存刚等人利用本 体的语义表达能力与相似度计算等提出了基于本体的 MIRSO 模型深入挖掘用户查询请求的语义信息 使系统隐含的信息得以表达.王兰成等人通过本体在文献信息检索系统中的应用 ,利用语义相似度计算方 法对与概念词相似的检索请求进行了语义上的扩展 ,来完成对检索文档的过滤 ,使最终的检索结果更加符 合用户的查询需求 方法总体介绍信息检索的好坏取决于检索结果是否是用户想得到的结果 ,进行信息检索时语义相似度计算则必不 .目前,很多检索是通过字形匹配 ,这样容易造成结果冗余 ,不够准确 ,缺乏语义信息 .现有的语义相似 度计算方法 ,在计算过程中 ,考虑不够全面 ,侧重于某一方面 ,不够准确 .因此本文提出一种新的语义相似 度计算方法 ,对基于本体的混合式语义相似度计算方法改进该方法框架如图1 所示 .首先 ,通过分词技 对用户输入的查询词进行划分,然后通过语义扩展技术 ,10]对用户的查询词进行语义扩展 ,最后利用 改进的混合式语义相似度计算方法对本体资源库进行查询 ,得到正确的结果 分词技术分词技术是对文本挖掘和语义分析的关键技术 ,是搜索引擎所必须的技术 ,对于用户输入的搜索信 ,要达到目的必须对其输入的信息进行分词处理,英文可以根据空格来进行分词 ,但是中文字与字之间 却没有空格等标点符号 ,中文的最小单位是字 ,有时一个字可以表达一个意思 ,“喜欢”都能构成一个独立意思的句子,通过计算机我们要对其进行分析 ,划分句子结构 划分后的词进行语义信息统计,然后进行整理整合 ,得到具体合理的语义 ,这需要一定的分词技术来完成 中文分词技术实际就是对句子中的词汇按照合理有效的方法拆分,在词与词之间加上标记 ,例如“很 喜欢学计算机” ,合理划分为 :很/喜欢/学/计算机 .分词技术目前具有广泛的应用 ,例如文本分类 ,人工智 ,自动标记,知识工程等 ,目前关于分词算法主要有以下几种 :以词典或词库匹配为基础的分词算法 词频统计为技术的分词算法,以知识理解为依据的分词算法 ,三大类 ,详细的算法介绍参考文献 查询意图扩展技术面对用户输入的信息有时不完整 ,或者没能很好的表达意思 ,这时我们不能要求用户重新输入 ,而是 通过查询意图扩展技术对其进行查询意图扩展 ,目前很多学者对其进行研究 ,主要分为5 ,知识询问意图,建议咨询意图 ,资源下载意图 ,导航/URL 意图针对用户的输入信息我们可以大致的确 定用户想要进行哪一种意图查询然后对其进行扩展 ,山东那座山最高?属于知识询问意图、电影阿凡 达下载 ,属于资源下载意图等等 ;对于查询意图的分类根据一些特征词进行分类如下所示 :信息寻找意图 (寻找、搜索、查找、给出、… )建议咨询(怎样、如何、方法是、怎么办、… )根据特征词的出现,判断 查询的意图分类 ,然后再根据初步的分类来进行意图的获取 .对于没有特征词的出现 ,计算机自动对其进 行扩展添加特征词 语言,可以对其进行扩展成建议咨询型 :怎样学习C 语言 ;也可以对其扩展成资 源下载型 :下载C 语言 .如果输入的内容不完整 ,只是一个简单的名词或者动词 ,那么应该对其成分补充 来提取完整的语义,可以通过查询意图识别模型 [11] 来进行获得用户查询语义在进行语义提取 一种新的语义相似度计算方法目前 ,基于本体的语义相似度的计算方法主要分为4 本体树中距离用边来衡量,语义距离实际是两个概念词在本体树中最短连通边的距离 ,距离越近语义越相 sim(Ai,Bj 和概念B的语义距离 .这种算法是所有算法中复杂度最小的 ,但是有一定的 缺陷 ,在计算中认为每条边的重要性是一样的 ,显然是不成立 .后来虽然有人用加权的方法来计算 ,区分边 的重要性地位 ,但是没能取得很好的结果 .第二种基于内容的语义相似度计算方法 :基本思想是通过两个 概念词共享的概念多少来衡量相似性 :两个节点的公共父节点包含的信息量多小来衡量,共享的内容 越多 ,则相似性越大 ,共享的内容越少则相似性越小 sim(Ai,Bj depth(lso(Ai,Bj depth(Ai depth(Bj 其中depth(lso(Ai ,Bj ))是概念 和概念B的最近共有祖先概念 ,dep th(Ai ,depth(Bj )分别表示概念 和概念B在WordNet 语义树中的深度 .但是在实际应用中不方便 ,因为算法很复杂 ,不具有易操作性 三种是基于属性的语义相似度计算方法,通过比较概念事物所具有的公共属性多少来判断两个事物的相 ,公共属性越多则相似性越大,反之则越小 .公式参考文献[13]里的(4 ,没有充分考虑其他的影响因素,所以没能充分利用本体的特征 .第四种混合式语义相似度计算方法 响相似性的因素有,在本体中的位置关系、边的类型信息、概念词的内容、比较对象的属性等 ,混合式语义 相似度计算方法实际是对上述三种算法的综合 ,集合了所有影响因素 ,这样具有更高的可信性 ,提高了查 找的准确性 .混合式语义相似度计算方法 ,在计算过程中通过根据专家的经验来分配权值 ,这样往往具有 一定的主观性,也容易造成错误的结果 .本文借鉴模糊优化的思想提出一种确定权值的方法 ,通过分别计 算基于距离的语义相似度、基于内容的语义相似度、基于属性的语义相似度 ,得到模糊矩阵 ,利用该模糊矩 阵得出权值的优先次序 ,进而得出权值 .这样提高了权值的精确性和客观性 .避免了主观性 假设c1,c2 的语义相似度为 sim(c1 ,c2 ,计算公式为sim(c1 ,c2 simA(c1,c2 simB(c1,c2 simC(c1,c2 ,simA(c1,c2 )表示基于距离的语义相似度 ,simB(c1 ,c2 )表示基于内容的语义相似度 ,simC(c1 c2)表示基于属性的语义相似度 :首先确定simA 、simB 、simC 的优先顺序 ,在这里我们为了简化用 表示sim(c1,c2 ,x1,x2 x3分别表示三个语义相似度 {x1,x2 ,x3 ,通过C我们可得到模糊优先矩阵 x1 为了说明该方法的思想,我们不妨设某次计算过程中 时第一次出现第二行除了对角线 作为第一优先对象 行得到新的矩阵,利用同样的方法 ,可以确定 x1 优于 x3 ,因此综上所述可以得出结 x3.通过此方法我们得出3 个语义相似度的优先次序 ,即所占比重的大小 :通过第一步得到优先次序,则在分配权值是必须按照这个次序进行分配 ,优先权大的 .通过第一步我们得出限制条件x1 由此可以推出x2 在这里我们不妨规定权值保留一位小数,推出 x2 综上可以得到权值取值集合(x1,x2 ,x3 :根据上述三组权值数据,代入公式计算得到语义相似度最大值 ,作为返回结果 综上所述,基于混合式的语义相似度计算 ,首先对 simA 、simB 、simC 进行优先排序 ,这样可以正确得 ,那种因素贡献度高,这样可以提高准确率 ,然后在对其权值进行赋值 ,根据优先次序进行赋值 ,赋值后计 算出每组数据的相似度 ,保留相似度最大的作为返回结果 .这样 ,通过科学计算得出权值 ,避免了主观性 应用实例示例本文主要应用参考文献[13]中的土壤系统分类本体进行实验 ,利用其中的数据进行比较对比 ,通过公 式(1)计算出永冻有机土与干旱土、火山灰土、水的基于本体距离的语义相似度为 0畅20).通过公式(2)计算出永冻有机土与干旱土、火山灰土、水的基于本体内容的语义相似度为 .29),利用公式(3)得出永冻有机土与干旱土、火山灰土、水的混合式语义相似度如表1 永冻有机土与干旱土、火山灰、水的语义相似度名称 干旱土火山灰 (x1,x2 ,x3 .283(x1 ,x2 ,x3 .287(x1 ,x2 ,x3 取上述各语义相似度最大的值,永冻有机土与干旱土的相似度为0 .683 ,永冻有机土与火山灰的语义 相似度为0 .522 ,永冻有机土与火山灰土语义相似度为0 .287 .则可以得出永冻有机土与干旱土的语义相 似度最大 .文献[13]里计算出永冻有机土与干旱土语义相似度为0 .655 小于0.683 .因此本文提出的语 义相似度计算方法 .提高了语义相似度的计算 ,提高了查询的准确度 总结展望本文提出一种基于本体的语义相似度计算方法 ,借鉴模糊优化排序的思想 ,解决了混合式语义相似度 计算方法中权重的确定依靠专家经验来确定的问题 ,避免了主观性 ,使取值更加科学 ,同时利用分词技术 语义扩展技术,提高了语义相似度计算的值 .在以后的语义相似度计算匹配中 ,可以提高查询的准确率等 但是文中还存在不足的地方,在后续的学习中不断进行改进 .基于本体的语义相似度计算方法研究综述[J].知识组织与知识管理 ,2010 ,188 :51‐56 LiuHong‐zhe ,Bao Hong ,Xu de .Conceptvector similaritymeasurement based hierarchicaldomain structure Informatics,2011(30) 001‐1021 .一种基于多属性本体的概念相似度计算方法的研究[D].长春 :东北师范大学 ,2010 .基于本体的语义相似度和相关度计算研究综述[J].计算机科学 ,2012 ,39(2) :8‐16 Patwardhan .UsingWordNet‐basedcontext vectors hesemantic relatedness heEACL Workshop MakingSense Sense:Bringing ComputationalLinguisti‐cs PsycholinguisticsTogether ,Trent ,Italy .Measuringsemantic similarity using wordnet‐based context vectors Systems,Man Cybernetics,2007 graphmodeling semanticsimilarity between words InternationalConference SemanticComputing .基于本体的语义全文检索系统的研究[D].哈尔滨 .哈尔滨工程学院 ,2013 .基于领域本体的语义合成研究及应用[D].南京 :南京邮电大学研究生院 ,2013 .语义查询扩展中词语‐概念相关度的计算[J].软件学报 ,2008 ,8(19) 043‐2053 .基于用户查询意图识别的web 搜索优化模型[J] .计算机科学 ,2012 ,39(1) :264‐268 .面向查询意图的信息检索技术[J].软件学报 ,2013 ,24(2) :162‐177 景东升.基于本体的地理空间信息语义表达和服务研究[D] .北京 .中国科学院遥感应用研究所 ,2005 NewCalculation Method SemanticSimilarity WEI Tong JIAYang‐li ZHANGZhen‐ling ComputerScience ,LiaochengUniversity ,Liaocheng 252059 ,China ComputerScience KnowledgeEngineering ,University Savoie,Savoie 73376 ,French) Abstract informationretrieval ,semantic based inaccurateinformation query ,re‐ quires manytimes ,reducing queryefficiency ,therefore ,semantic similarity calculation accuracy veryimportant mainuse notionalword distance ,content tributeinformation se‐maticsimilarity computation ,which integrated distance ,information content conceptword attribute factors hybridinformation semantic similarity calculation method popularapproach methodofsemati‐c similarity computation experts,man‐made sure,have certain subjectivity ,affects semanticsimilarity computation accuracy objectivity.Therefore paperpresents newhybrid semantic similarity calculation method fuzzyoptimization weightvalue hybridsemantic similarity calculation method subjectivity,thesemanti‐c similarity calculation more accurate queryresults more people’sneeds Keywords ontology,semantic similarity ,word segmentation technology ,extended semantic technology 一种新的语义相似度计算方法作者: Julien,WEI Tong, JIA Yang-li, ZHANG Zhen-ling, Julien 作者单位: Tong,JIAYang-li(聊城大学 计算机学院,山东 聊城,252059), 领,Julien,ZHANGZhen-ling,Julien(聊城大学 计算机学院,山东 聊城 252059; 73376)刊名: 聊城大学学报(自然科学版) 英文刊名: Journal LiaochengUniversity (Natural Science Edition) 2015(2)引用本文格式:位通.贾仰理.张振领.Julien.WEI Tong.JIA Yang-li.ZHANG Zhen-ling.Julien 一种新的语义相 似度计算方法[期刊论文]-聊城大学学报(自然科学版) 2015(2)

本文链接:http://furymagazine.com/yuyishu/244.html