我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 语义合一 >

在线客服系统中关键技术的应用研究图全文检索的一般过程全文检索

归档日期:07-27       文本归类:语义合一      文章编辑:爱尚语录

  在线客服系统中关键技术的应用研究图全文检索的一般过程全文检索的方法主要分为按字检索和按词检索两种。 按字检索 指对于文章中的每一个字都建立索引 检索时将词分解为字的组合。对于各种不同的语言 字有不同的含义 比如英文中字与词实际上是合一的 而在中文中字与词有很大分别。 按词检索 指对文章中的词 即语义

  在线客服系统中关键技术的应用研究图全文检索的一般过程全文检索的方法主要分为按字检索和按词检索两种。 按字检索 指对于文章中的每一个字都建立索引 检索时将词分解为字的组合。对于各种不同的语言 字有不同的含义 比如英文中字与词实际上是合一的 而在中文中字与词有很大分别。 按词检索 指对文章中的词 即语义单位元建立索引 检索时按词检索 并且可以处理同义项等。英文等西方文字由于按照空白切分词 因此实现上与按字处理类似 添加同义处理也很容易【 。中文等东方文字则需要切分字词 以达到按词索引的目的 这是当前中文全文检索技术中的难点【 本文的研究内容与组织结构本文基于的框架 并运用 等开源工具设计并实现了一个可扩展、可复用的在线客服系统。为提高系统性能本系统结合实际情况 给出了一种适合本系统开发的检索技术 从分词、索引、检索等方面进行优化。同时为了提高响应速度 系统采用了二级缓存技术。 第一章绪论本文的组织结构如下 第一章介绍本文的研究背景及意义、客服系统及全文检索的现状以及本文的主要内容。第二章介绍本系统开发所使用的相关技术 包括 全文检索工具包及其常用中文分析器、中文分词及其常用算法。第三章介绍在线客服系统包括系统的功能性说明和非功能性说明。重点介绍了智能问答、问答社区和后台管理三个模块的功能。第四章介绍在线客服系统开发中使用到的关键技术。首先介绍系统中 的使用 分别从中文分词、索引和检索的设计和实现进行介绍 其次介绍系统中二级缓存的设计与实现。第五章介绍在线客服系统的实现 分别从智能问答、问答社区和后台管理三个模块的实现进行介绍。第六章是本文的总结和展望 对全文工作进行总结 概括了主要的技术 并指出了今后的有待改进优化的方向。在线客服系统中关键技术的应用研究第二章系统相关技术介绍本章主要介绍本系统开发中涉及到的相关技术 包括系统开发的框架及相关技术 并介绍了 和中文分词的相关概念及常用算法。 是常用的面向企业应用的体系结构它降低了系统的开发成本和复杂性 加快了系统的设计和开发‘ 是基于模式的开源框架 其中 进行流程控制 进行业务流转 进行数据库操作的封装。本系统使用了 的框架。 创建的开源框架是为了解决企业应用开发的复杂性而创建。 使用基本的 代替 并提供了更多的企业应用功能。 是轻量级 应用程序框架 是一个实现了控制反转 和面向切面 的容器框架‘ 。以下主要从这两方面介绍 模式模式【 中占着举足轻重的地位它的目的是为了解决模块间的耦合。 模式秉承 模式的基本理念 即针对接口编程。 模式还有一个名字叫做依赖注入 。依赖注入的基本原则是应用对象不应该负责查找资源或者其它依赖的协作组件。在 模式有三种实现方式注入 通过 方法设定依赖关系 使用起来方便自然 符合 的设计规则。 接口注入 组件需要依赖特定接口的实现 其中的加载接口实现和接第二章系统相关技术介绍口实现的具体对象都是由容器来完成。接口必须依赖容器 这样的组件具有侵入性 降低了重用性。 构造方法注入 在类加载的时候 就已经注入依赖的组件。这种做法使依赖关系集中 更加易读。 注入和构造方法注入是 常用的方式 而接口注入方式不常用。 设计思想 框架的重要组成部分实现了 联盟约定的接口。 实际是 设计模式的延续。 将那些与业务无关 却为业务模块所共同调用的逻辑或责任 例如日志记录、性能统计、安全控制、事务处理、异常处理等封装起来 减少了系统的重复代码 降低了模块间的耦合度 有利于系统的可操作性和可维护性‘ 的几个重要概念的定义如下切面 一个关注点的模块化 这个关注点可能会横切多个对象。 连接点 程序执行过程中的某一行为 例如抛出异常等行为。 通知 切面对于某个连接点所产生的动作 例如进行日志记录的动作就是一个 切入点匹配连接点的断言 中通知和一个切入点表达式关联。目标对象 被一个或者多个切面所通知的对象。在实际运行时 采用代理实现。 代理 中有两种代理方式动态代理和 代理。默认情况下 则采用 动态代理 反之 采用 代理。在 的优点有降低模块的耦合度 使系统容易扩展 提高代码的复用性。 允许开发者使用声明式企业服务 比如事务服务、安全性服务。在线客服系统中关键技术的应用研究 开发方便 可以借助代理类快速搭建 应用。 是一个开放源代码的对象关系映射框架 框架 它对 进行了非常轻量级的对象封装 并且供了强大、高性能的对象到关系型数据库的持久化服务 使得 程序员可以使用面向对象的设计进行持久层开发。 是一种比较彻底的 对象映射工具 它可以直接映射大部分的 而不需要对它们作任何修改 即使修改最多也就是在 里面加上一些私有访问方法。每一种持久化机制都有一种对持久化对象属性的访问机制。 使用的是 利用机制 在系统启动时生成 语句 进行对象的持久管理 的映射机制支持两种形式的映射元数据一种是基于 注释新特性 另一种是基于 文件。 的核心接口一共有 个核心接口在任何开发中都会用到。通过这些接口不仅可以对持久化对象进行存取 还能够进行事务控制。 的优点有 封装了 简化了很多重复性代码。 简化了 层编码工作 使开发更对象化。 移植性好 支持各种数据库 如果换个数据库只要在配置文件中变换配置就可以了 不用改变 代码。 支持透明持久化 因为 操作的是纯粹的 没有实现任何接口没有侵入性。 是一种基于对象和事件驱动并具有相对安全性的客户端脚本语言。同时也是一种广泛用于客户端开发的脚本语言。 是比较第二章系统相关技术介绍常用的两种类库。本系统主要使用 实现它提供了一种能在 浏览器端采用 语言直接调用后台业务商业组件的解决方案。 通过 直接调用远程组件可以减少 开发的时间 特别对于那些具有和用户频繁交互的 应用程序。 使得浏览器不用刷新页面就可以从远程 服务器取得用户需的数据 这种无刷新页面的交互方式大大提高 页面的响应时间。至少用户不会感觉到刷新页面带来的等待响应心理感觉。 在浏览器端采用纯 实现 并且会自动根据浏览器类型采用最高效率的远程组件调用机制。图 各组成部分的交互框架实现的主要原理是【 由服务器端的一个负责所有与客户端的 通信工作 同时自动进行传递消息类型、变换及动态 代码的生成工作。总的来说 是一个对 进行轻量级包装的代码库 提供了友好的框架和一些有用的 简化了从页面调用应用服务器上 对象的方法 在参数传递中实现了多种类型的自动转换 同时保持了 代码的可读性 这些降低了开发的难度 使其更具有实际应用开发的价值。 在线客服系统中关键技术的应用研究 月的开源项目。是一个优秀的 框架 也是一个轻量级的 压缩后只有兼容 及各种浏览器。 极大地简化了开发人员遍历 文档、操作 、处理事件、执行动画和开发 的操作。利用 丰富的函数库 可以减少代码的重复编写及 脚本库的调用 而只关注程序逻辑的实现 利用尽可能少的代码实现想要实现的功能 。以下从几个方面说明 强大的选择器使用 引擎 支持 选取、 砒选取等方式。 时间处理 增加和扩展了 的事件处理机制 不仅提供了优雅的处理语法 而且极大的增强了事件处理能力。 将所有 操作封装到函数 里面 在使用 时可以专心处理业务逻辑而无需关心复杂的浏览器兼容性和 对象的创建和使用问题。 插件机制 的官方插件是 。开发者可以任意扩展 的函数库或者按照自己的需求开发 组件。 出色的 封装 封装了大量的 操作 使在编写 操作相关程序时能方便很多。 隐式迭代 里的方法都被设计成自动操作对象集合 而不是单独对象 这使得大量的循环操作不再必要 从而大幅减少代码量。 中文分词 中文分词简介在西方语言中 各个词都是用空格进行分隔 词和词之间的区分明显 系统只要根据空格进行分隔即可 不需要特殊的分词技术。而中文却不一样 中文的第二章系统相关技术介绍词都是处于一个具体的语句中 而且没有明显的分隔符号。因此对于中文字符串 需要经过特殊的中文分词处理才能把相对独立的词分离出来 。目前中文分词的主要研究集中在自然语言处理技术中 中文处理技术涉及诸多复杂的技术难点。中文分词是其他中文信息处理的基础 许多的应用都要依赖于中文分词技术 例如 语音合成、搜索引擎、机器翻译、自动分类、自动摘要、自动校对等等。这些方面的需求极大的推动了中文分词技术的发展。中文分词的核心是分词的速度和分词的准确性。分词的速度是指切分一段话或者一个短句时所耗费的时间 根据分词算法的差异 分词所消耗的时间也是迥然不同的 分词的准确性是指对一段文本进行分词后 得出的词是否符合人类的语言习惯 由于中文语言组合灵活 词义变化大 因此要准确分词难度很大。中文分词中遇到的主要问题是新词识别和歧义问题 歧义问题歧义是指同样的一句话 可能有两种或者更多的切分方法。主要的歧义有两种 交集型歧义和组合型歧义。交集型歧义【 例如表面的 因为“表面 和“面的”都是词 那么这个短语就可以分成“表面的”和“表面的’’。组合型歧义 例如 在句子“这个门把手坏了”中 “把手”是个词 但在句子“请把手拿开”中 “把手 就不是一个词。交集型歧义相对组合型歧义来说比较容易处理 组合型歧义就必需根据整个句子来判断了。 新词识别 命名实体 人名、地名 、新词 专业术语称为未登录词。也就是那些在分词词典中没有收录 但又确实能称为词的那些词。最典型的是人名 除了人名以外 还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一 中文分词常用算法现有的中文分词算法主要可分为三大类口 基于字符串匹配的分词方法【、基于统计的分词方法和基于理解的分词方法。在线客服系统中关键技术的应用研究 基于字符串匹配的分词方法这种方法又称为基于字典的分词方法或者称作机械分词方法 它将待分析的汉字串按照一定的策略与机器词典中的词条进行匹配。若在词典中找到某个字符串 则匹配成功 识别出一个词 。该方法有三个要素 即分词词典、文本扫描顺序和匹配原则。文本的扫描顺序有正向扫描、逆向扫描和双向扫描。匹配原则主要有最大匹配、最小匹配、逐词匹配和最佳匹配【 基于统计的分词方法基于统计的分词方法的主要思想是词是一个稳定的组合 在上下文中 相邻的字同时出现的次数越多 就越是有可能构成一个词。因此可信度是由字和字相邻出现的频率或概率来反映的。可以对训练文本中相邻出现的各个字的组合的频度进行统计 计算出它们之间的互现信息。互现信息体现了汉字与汉字之间结合关系的紧密程度。当其紧密程度高于某一个阀值的时候 便可以认为此字组可能构成了一个词。该方法又称为无字典分词法 在实际的应用中一般将其与基于词典的分词方法结合起来 这样既发挥了基于词典的匹配分词切分速度快、效率高的特点 用了无词典分词结合上下文识别生词、自动消除歧义的优点吲。 基于理解的分词方法基于理解的分词方法又称基于人工智能的分词方法。其基本思想是在进行分词的同时进行语义和句法的分析 利用语义信息和句法信息来处理歧义现象。它通常包括三个部分 分词子系统、句法语义子系统和总控部分。在总控部分的协调下 分词子系统能够获得有关词、句子等的语义和句法信息来判断分词歧义 即它模拟了人对于句子的理解过程。这种分词方法需要使用大量的语言知识和信息。目前基于理解的分词方法主要有专家系统分词法和神经网络分词法等。以上中文分词方法各有优点和缺点。基于字典的分词方法的优点是分全率和准确率高 缺点是处理速度慢 不能够识别未登录词 而且会出现歧义问题 基于统计的分词方法的优点是处理速度快 能够识别高频未登录词 并且不易出现歧义问题 缺点是分全率和准确率比较低【 基于理解的分词方法由于汉语语言的笼统和复杂性很难将各种语言信息组织成机器可直接读取的形式 因此目前基于理解的分词方法还处于试验阶段【 】。第二章系统相关技术介绍 全文检索工具包 是一个基于 的全文信息检索工具包 它不是一个完整的搜索应用程序 而是为应用程序提供索引和检索的功能。 家族中的一个开源项目也是目前最为流行的基于 开源全文检索工具包。目前已经有很多应用程序的搜索功能是基于 的帮助系统的搜索功能。的主要目标是让开发人员能方便快捷的开发出一个高质量的搜索引擎 简介的总体架构 作为一个优秀的全文检索引擎 其系统结构具有强烈的面向对象特征。首先是定义了一个与平台无关的索引文件格式 其次通过抽象将系统的核心组成部分设计为抽象类 具体的平台实现部分设计为抽象类的实现 此外与具体平台相关的部分比如文件存储也封装为类 经过层层的面向对象式的处理 最终达成了一个低耦合高效率 容易二次开发的检索引擎系统 的系统结构。‰纱图的系统结构

  在线客服系统中关键技术的应用研究,客服系统,qq在线客服系统,在线客服系统,qq在线在线客服系统,泰康客服系统,51客服系统,百度在线客服系统,tq客服系统

本文链接:http://furymagazine.com/yuyiheyi/209.html