我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 语义分析 >

人工智能:人工智能中的语义分析技术及其应用pdf

归档日期:07-09       文本归类:语义分析      文章编辑:爱尚语录

  1.本站不保证该用户上传的文档完整性,不预览、不比对内容而直接下载产生的反悔问题本站不予受理。

  融合论坛 INTEGRATION FORUM 人工智能中的语义分析技术及其应用 文/神州泰岳 中国国民经济和社会发展第十三个五年规划纲要指出,实施国家大数据战略,把 大数据作为基础性战略资源,全面实施促进大数据发展行动,加快推动数据资 源共享开放和开发应用,助力产业转型升级和社会治理创新。 一、人工智能语义分析技术 二、语义分析技术 语义分析 (Semantic Analysis)是人工智 (一)基础技术(按照词语分析、句子分 能 (Artificial Intelligence)的一个分支, 析、篇章分析来写) 是自然语言处理技术的几个核心任务,涉及语 分别从词汇级、句子级和篇章级三个层次 言学、计算语言学、机器学习,以及认知语言等 描述语义分析相关技术。 多个学科,语义分析任务有助于促进其他自然 1.词语级语义分析 语言处理任务的快速发展。人工智能中的语义 词汇层面上的语义分析主要体现在如何理 分析技术,特别是深度学习 (Deep Learning) 解某个词汇的含义,主要包含两个方面 :词义消 技术近年来发展迅猛,已经在围棋对弈、自动 歧和词义表示 驾驶、图像识别、语音识别等多个领域取得了 (1)词义消歧 突破性进展。 词汇的歧义性是自然语言的固有特征。词 语义分析指运用各种方法,学习与理解一 义消歧根据一个多义词在文本中出现的上下文 段文本所表示的语义内容,任何对语言的理解 环境来确定其词义,作为各项自然语言处理的 都可以归为语义分析的范畴。一段文本通常由 基础步骤和必经阶段被提出来。词义消歧包含 词、句子和段落来构成,根据理解对象的语言 两个必要的步骤:(a)在词典中描述词语的意义; 单位不同,语义分析又可进一步分解为词汇级 (b)在语料中进行词义自动消歧。例如 “苹果” 语义分析、句子级语义分析以及篇章级语义分 在词典中描述有两个不同的意义:一种常见的水 析。一般来说,词汇级语义分析关注的是如何 果;美国一家科技公司。对于下面两个句子: 获取或区别单词的语义,句子级语义分析则试 她的脸红得像苹果。 图分析整个句子所表达的语义,而篇章语义分 最近几个月苹果营收出现下滑。 析旨在研究自然语言文本的内在结构并理解文 词义消歧的任务是自动将第一个苹果归为 本单元 (可以是句子从句或段落)间的语义关 “水果”,而将第二个苹果归为 “公司”。从上面 系。简单地讲,语义分析的目标就是通过建立 的例子中我们发现,词义消歧主要面临如下两 有效的模型和系统,实现在各个语言单位 (包 个关键问题 :(a)词典的构建 ;(b)上下文的建 括词汇、句子和篇章等)的自动语义分析,从而 实现理解整个文本表达的真实语义。 北京神州泰岳软件股份有限公司 42 软件和集成电路 SOFTWARE AND INTEGRATED CIRCUIT 万方数据 人工智能中的语义分析技术及其应用 图:循环神经网络结构 模。 2.句子级语义分析 (2)词义表示和学习 句子级的语义分析试图根据句子的句法结 对于词义表示,早期的做法将某个词义表 构和句中词的词义等信息,推导出能够反映这个 示为,从该词义在同义词网络中出现的位置到该 句子意义的某种形式化表示。根据句子级语义 网络根节点之间的路径信息。词义表示的另一 分析的深浅,又可以进一步划分为浅层语义分 个思路是将其数字化。最直观,也是到目前为止 析和深层语义分析。 最常用的词表示方法是one-hot表示方法,这种 (1)浅层语义分析 方法把每个词表示为一个很长的向量。这个向 语义角色标注(Semantic Role Labeling, 量的维度是词表大小,其中绝大多数元素为0, 简称 SRL)是一种浅层的语义分析。给定一个句 只有一个维度的值为1,这个维度就代表了当前 子,SRL的任务是找出句子中谓词的相应语义角 的词。不难想象,这种表示方法存在一个重要的 色成分,包括核心语义角色 (如施事者、受事者 问题 :任意两个词之间都是孤立的。造成的结 等)和附属语义角色 (如地点、时间、方式、原因 果是 :光从两个向量中看不出两个词是否有关 等)。 系,即使这两个词是同义词,例如 “计算机”和 目前SRL的实现通常都是基于句法分析结 “电脑”、“上海”和 “上海市”。 果,即对于某个给定的句子,首先得到其句法 随着机器学习算法的发展,目前更流行的 分析结果,然后基于该句法分析结果,再实现 词义表示方式是词嵌入 (Word Embedding,又 SRL。 称词向量)。其基本想法是 :通过训练将某种语 (2)深层语义分析 言中的每一个词映射成一个固定维数的向量, 深层的语义分析 (有时直接称为语义分 将所有这些向量放在一起形成一个词向量空 析,Semantic Parsing)不再以谓词为中心,而 间,而每一向量则可视为该空间中的一个点,在 是将整个句子转化为某种形式化表示,例如 : 这个空间上引入“距离”,则可以根据词之间的 谓词逻辑表达式 (包括lambda 演算表达式)、 距离来判断它们之间的 (词法、语义上的)相似 基于依存的组合式语义表达式 (dependency- 性。 b a s e d c o m p o s it io n a l s e m a n t ic 2017 4 年第 期 43 万方数据 融合论坛 INTEGRATION FORUM representation)等。以下给出了GeoQuery数据 在自然语言处理中是最有效的,下面将介绍循 集中的一个中英文句子对,以及对应的一阶谓 环神经网络。 词逻辑语义表达式 : RNNs的目的是使用序列来处理数据。在传 中文: 列出在科罗拉多州所有的河流 统的神经网络模型中,是从输入层到隐含层再 英文: N a m e a ll th e r ivers in 到输出层,层与层之间是全连接的,每层之间的 Colorado 节点是无连接的。但是这种普通的神经网络对 语义表达式: answer(river(loc _ 2(state 于很多问题却无能无力。例如,你要预测句子的 id(colorado)))) 下一个单词是什么,一般需要用到前面的单词, 虽然各种形式化表示方法采用的理论依 因为一个句子中前后单词并不是独立的。RNNs 据和表示方法不一样,但其组成通常包括关系 之所以称为循环神经网路,即一个序列当前的 谓词 (如上例中的loc _ 2、river等)、实体 (如 输出与前面的输出也有关。具体的表现形式为 colorado)等。语义分析通常需要知识库的支 网络会对前面的信息进行记忆并应用于当前输 持,在该知识库中,预先定义了一序列的实体、 出的计算中,即隐藏层之间的节点不再无连接 属性以及实体之间的关系。 而是有连接的,并且隐藏层的输入不仅包括输 3.篇章级语义分析 入层的输出还包括上一时刻隐藏层的输出。理 篇章是指由一系列连续的子句、句子或语 论上,RNNs能够对任何长度的序列数据进行处 段构成的语言整体单位,在一个篇章中,子句、 理。但是在实践中,为了降低复杂性往往假设当 句子或语段间具有一定的层次结构和语义关 前的状态只与前面的几个状态相关。 系,篇章结构分析旨在分析出其中的层次结构 RNNs已经在实践中被证明对NLP是非常成 和语义关系。具体来说,给定一段文本,其任务 功的。如词向量表达、语句合法性检查、词性标 是自动识别出该文本中的所有篇章结构,其中 注等。在RNNs中,目前使用最广泛、最成功的模 每个篇章结构由连接词,两个相应的论元,以及 型便是LSTMs(Long Short-Term Memory,长短 篇章关系类别构成。篇章结构可进一步分为显 时记忆模型)模型,该模型通常比vanilla RNNs 式和隐式,显式篇章关系指连接词存在于文本 能够更好地对长短时记忆模型依赖进行表达, 中,而隐式篇章关系指连接词不存在于文本中, 该模型相对于一般的RNNs,只是在隐藏层做了 但可以根据上下文语境推导出合适的连接词。 手脚。 对于显式篇章关系类别,连接词为判断篇章关 RNNs可以应用于语言模型与文本生成、文 系类别提供了重要依据,关系识别准确率较高; 本分类、机器翻译等自然语言处理任务中。 但对于隐式篇章关系,由于连接词未知,关系 类别判定较为困难,也是篇章分析中的一个重 三、面向业务建模的语义分析(介绍 要研究内容和难点。 DINFO-OEC平台和技术) (二)深度学习技术(深度学习在NLP中 (一)DINFO-OEC平台介绍 的研究内容) DINFO-OEC非结构化大数据分析挖掘平台, 在 深 度 学 习技 术 中,循 环 神 经 网络 是中科鼎富 (北京)科技发展有限公司研发的大 (Recurrent Neural Networks, RNNs)被证明 数据产品,具有非结构化文本大数据的分析、 44 软件和集成电路 SOFTWARE AND INTEGRATED CIRCUIT 万方数据 人工智能中的语义分析技术及其应用 挖掘的超凡能力,是企业实施大数据战略的强 离,区分业务层次和语言层次进行分部建模。业 大利器。 务层次支持业务本体构建,支持业务要素发现 大数据中80%都是非结构化大数据,非结 与配置;语言层次支持语言概念的构建与维护, 构化大数据因其中的业务对象、对象之间的关 支持常用词汇库和同义库等建设。DINFO-OEC业 系等都蕴含在文本内容中,而文本内容来源繁 务建模价值在于客户只需关注自身业务的描述, 多、表达方式灵活多样、存在着大量的歧义性, 文本表示的多样性和歧义性等由系统来负责解 因此无法使用传统的B I工具等进行分析,无法 决。 直接服务于业务,实现业务价值。非结构化大 (三)平台特点(参考白皮书) 数据是大数据处理的难点和热点。DINFO-OEC 1.超凡的面向业务的非结构化数据建模能 平台支持三位一体的多维度业务建模能力,结 力 合自然语言处理、深度学习等统计文本挖掘算 INDO-OEC业务建模,能把纷繁复杂的业务 法,基于平台立体式的业务模型的智能语义感 规则和灵活多样的语言表达习惯进行统一建 知技术,提供对非结构化大数据智能理解与自 模,从本体、要素和概念三个维度构建分析挖 动化处理能力,实现文本知识的多维度的业务 掘模型,有效地将 “业务”描述与自然语言的表 标签标记功能,将无序的非结构化信息转换为 达进行分离,使得业务人员可以专注于自己擅长 满足业务需求的结构化数据。DINFO-OEC平台支 的业务需求及业务规则的建模,而无需考虑自 持与主流Hadoop、Spark等大数据平台实现对 然语言的歧义性、表达的多样性和复杂性等。 接,利用hadoop平台提供的分布式存储和Map/ 2.强大的非结构化分析挖掘能力 Reduce分布式计算能力,实现复杂、批量的大 产品支持智慧语义感知算法,提供强大的 数据分析挖掘。利用Spark、kafka等提供的实 自然语言理解相关分析算法,包括内容分类、聚 时分布式计算能力,提供海量数据的实时分析 类、主题分析、语义分析、实体识别、启发式搜 计算能力,融合主流的搜索引擎技术,支持基于 索引擎、推荐引擎、摘要引擎等。 海量历史数据的交互式搜索功能。DINFO-OEC平 产品支持多种分析挖掘算法,包括C计算 台支持与常用的商业智能系统进行融合,实现 (提供概念的抽取、概念表达式挖掘、概念表 结构化数据和非结构化数据的融合分析挖掘, 达式匹配算法),S计算 (提供常用的统计挖掘 最大化的挖掘大数据的业务价值,提供大数据 算法,包括但是不限于KN N、SV M、决策树等算 分析挖掘支持下的业务创新。 法)和R计算 (提供概念关联发现算法)。 (二)业务建模 3.丰富的多语种分析挖掘支持能力 业务建模技术,采用神州泰岳独创的 “本 系统内置了多语种分析挖掘算法。利用一 体O-要素E-概念C”三位一体的专利技术 (发明 套算法流程,实现多语种支持,语种扩展性好。 专利号0.1)进行建模,将业务和语 新增加语种,不用修改算法。 言分为两个不同层次建模。业务建模以本体论 多语种复用的能力。平台支持多语种业务 为核心,对业务知识进行规划,对业务规则进 规则保持一致的能力。业务规则 (对应系统的 行建模配置,形成形式化的业务规则。业务建 本体树)的维护,只需维护中文简体版,无须维 模技术支持业务与非结构化数据的语言表达分 护其他语种的本体树,大大减少本体树维护工 2017 4 年第 期 45 万方数据 融合论坛 INTEGRATION FORUM 图:“本体O-要素E-概念C”三位一体的业务建模技术 作量。 在中台支持授信、各类金融交易和金融分析中 跨语种建模能力。平台支持用中文简体版, 的决策,在后台用于风险防控和监督,它将大幅 书写其他语种的本体树规则。修改、维护本体 改变金融现有格局,金融服务 (银行、保险、理 树类别,无须掌握其他语种。 财、借贷、投资等方面)将更加地个性化与智能 4.卓越的大数据计算与存储平台集成能力 化。证券研报大数据云服务,是鼎富科技针对 支持主流的Hadoop平台,支持Map/Reduce 证券业、基金业研究人员、分析师推出的一款大 批量计算以及Sp a rk实时计算,支持H DF S、 数据云服务产品。系统提供SaaS服务,提供公 Hbase、kafka等存取。支持的Hadoop平台包 告、研报的全网采集,以及事件结构化分析,提 括Apache Hadoop、IBM BigInsights、华为 供研报一站式智能搜索,以及基于时间轴、基 FusionInsights、EMC Pivotal HD。 于信息锚点的大数据分析挖掘。系统能帮助分 支持SOA集群架构,支持与Oracle、Mysql、 析师从大数据视角进行深度研究分析,提高工 DB2等主力数据库产品集成。 作效率。 (二)政府行业应用 四、语义分析应用 舆情分析为政府、公安、社会等提供可自 (一)金融行业应用 定义热点问题的舆情分析系统,信息出现的源 人工智能的飞速发展,使得机器能够在很 头到产生的影响全程跟进分析,形成舆情影响 大程度上模拟人的功能,实现批量人性化和个 波及范围、公众反响、不良舆论等内容的分析报 性化地服务客户,这将给身处服务价值链高端 告。 的金融行业带来深刻影响,人工智能将成为决 舆情分析能够大幅度缩短组织对互联网、 定银行沟通客户、发现客户金融需求的重要因 论坛等电子信息渠道的公众舆论趋势的响应时 素。它将对金融产品、服务渠道、服务方式、风 间,通过关联分析能够帮助组织预测未来可能 险管理、授信融资、投资决策等带来新一轮的 出现的状况并提前实施相关措施。 变革。人工智能技术在前端可以用于服务客户, 智慧传播云服务,是鼎富科技与腾讯网合 46 软件和集成电路 SOFTWARE AND INTEGRATED CIRCUIT 万方数据 人工智能中的语义分析技术及其应用 作推出的互联网信息监测预警平台,面向政府 直接告知答案,而非仅告知答案所在的范 机构、企事业单位提供互联网信息监测、预警 围。小富4.0提供丰富的知识加工模式,可智能 服务。舆情云项目的研发目的是为企业、政府、 化地将结构化和非结构化的知识,碎片化为结 组织开发一款基于云服务的互联网舆情监测系 构化的文档。应答客户提问时,可直接回馈用户 统。该系统数据采集模块具有可配置、自动去 的问题,而非给出一个答案所在区间。 重、垃圾过滤核心功能。系统分析挖掘功能采 此外,与小富机器人4.0同时展示的还有泰 用智慧语义识别技术,保证了语义分析的准确 岳统一业务知识库系统,可提供知识自动加工 性。系统可以按照客户需求进行舆情监测定制、 和强大的知识图谱关联能力;泰岳客服大数据 统计报表定制和预警定制。 分析挖掘解决方案,可支持多层级业务类别自 (三)客服行业应用 动分类和语义处理,为客户提供更智能、更高效 客服作为劳动密集型行业,对于一些大公 的人工智能新体验。 司来说,成本依然很高。智能机器人客服的出现 可以在很大程度上解决简单、重复性工作,帮助 五、语义分析及大数据发展趋势 企业节省人工和坐席成本,提升运营效率。 人工智能技术及大数据已经成为新经济发 小富机器人4.0是神州泰岳旗下一款智能客 展的动力,美国、欧洲、日本、中国等多个国家和 服机器人,它将开启全媒体时代的智能客服中 地区均将大数据及人工智能作为国家战略。中 心。小富机器人4.0有以下几个亮点 : 国国民经济和社会发展第十三个五年规划纲要 亮点一 :首创业务场景机器人 指出,实施国家大数据战略,把大数据作为基础 让机器人服从业务,而非业务屈从于机器 性战略资源,全面实施促进大数据发展行动, 人。客服、营销、外呼等业务,场景不同,业务逻 加快推动数据资源共享开放和开发应用,助力 辑也不同。小富4.0预设多种场景模式的业务框 产业转型升级和社会治理创新。同时,2016年, 架,对应的知识类型和交互方式也有区分设计, 国家发改委、科技部、工信部、中央网信办联合 可提供更专业、更具针对性的智能化服务。 发布了《“互联网+”人工智能三年行动实施方 亮点二 :整体性业务建模,更具延展性 案》,首次单独为人工智能发展提出具体的策 基于对业务的整体理解,而非Q&A的堆积。 略方案,提出了人工智能发展的九大工程。2016 基于对具体场景的深刻业务理解,进行整体建 美国白宫发布了《为人工智能的未来做好准备》 模,具有完整的业务逻辑,机器人的思维延展 (Preparing for the Future of Artificial 性和可复用性大大增强,应答效率更高。 Intelligence)和 《国家人工智能研究与发展战 亮点三:差异化的知识类型表达体系 略计划》(National Artificial Intelligence 智能引导多轮会话,而非预设问题的反复 Research and Development Strategic Plan) 跳转。小富4.0的业务知识体系化,并具有记忆 两份重要报告。探讨了人工智能的发展现状、应 能力,可基于业务逻辑自创造问答逻辑,智能地 用领域以及潜在的公共政策问题,提出了美国 开展多轮引导式问答,让交互更自然、更具亲和 优先发展的人工智能七大战略方向及两方面建 力。 议,对我国人工智能产业发展具有重要的借鉴意 责任编辑:郭嘉凯 亮点四:智能碎片化知识加工 义。 guojk@ 2017 4 年第 期 47 万方数据

  “原创力文档”前称为“文档投稿赚钱网”,本网站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有【成交的100%(原创)】

本文链接:http://furymagazine.com/yuyifenxi/161.html