我要投搞

标签云

收藏小站

爱尚经典语录、名言、句子、散文、日志、唯美图片

当前位置:2019跑狗图高清彩图 > 约束推理 >

Semantic Parsing via Staged Query Graph Generation: Queson

归档日期:07-13       文本归类:约束推理      文章编辑:爱尚语录

  我们对知识库问答提出一个新颖的语义解析框架。我们定义了一个类似于知识库子图的,可以直接映射为逻辑形式。语义解析被简化为查询图生成,被表述为分阶段搜索问题。与传统方法不同,我们的方法在早期就利用知识库来修剪搜索空间,从而简化语义匹配问题。通过应用匹配问题和谓词序列,我们的系统由于之前的方法,在WebQuestion数据集上F1达到了52.5%。

  很多state-of-the-art的KB-QA方法基于语义解析,问题会映射为正式的意义表示(比如:逻辑形式),然后翻译为知识库查询语句。该问题的答案可以通过执行查询语句获得。然而,大多数传统的语义分析方法在很大程度上与知识库分离,因此在适应QA等应用时面临着一些挑战。例如,当逻辑形式使用与KB中定义的谓词不同时,通用意义表示可能具有ontology match问题。即使表示语言与知识库模式密切相关,从KB中的大词汇表中找到正确的谓词到话语中描述的关系仍然是一个难题。

  受到(Yao and Van Durme,2014; Bao et al.,2014)的启发,我们提出了一种语义解析框架,在对输入问题解析时更加紧密地利用知识库。我们首先定义一个查询图,它可以直接映射到λ-calculus中的逻辑形式,并且在语义上与λ-DCS密切相关。然后将语义解析简化为查询图生成,将其表述为具有分阶段状态和动作的搜索问题。每个状态都是查询图表示中的候选解析,每个动作都定义了一种增长图形的方法。因此,语义解析的表示能力由适用于每个状态的一组合理动作控制。特别地,我们将动作分为三个主要步骤:定位问题中的主题实体,发现答案和主题实体之间的主要关系,并使用描述答案需要的属性的附加约束或问题中答案与其他实体之间的关系来扩展查询图。

  这种分阶段设计的一个关键优势是,通过将某些实体和谓词的部分话语基础接地,我们通过关注空间中最有可能导致正确查询图形的有前途的区域,使搜索更加有效。我们的设计将这个特定的语义解析问题划分为几个子问题,例如实体链接和关系匹配。对每个子问题用最好的解决方法就会提升语义解析的性能。

  我们的方法采用图形化的方式表示知识库KKK和问题qqq,并将语义分析简化为将问题映射到查询图。 我们将在下面描述基本设计:

  知识库其实就是subject-predicate-object三元组的集合,知识库通常也称为知识图,由于它的图形化表示,每个实体都是一个节点,两个相关的实体由一条边相连。

  给定知识图,执行逻辑形式查询等同于查找可以映射到查询的子图,然后解析变量的绑定。为了捕捉这种直觉,我们在图表表示中描述了λ-calculus的受限子集作为我们的查询图。

  查询图由四种类型的节点组成:基础实体(圆角矩形),存在变量(圆形),lambda变量(阴影圆形),聚合函数(钻形)。基础实体是存在于知识库中的实体。存在变量和lambda变量不是基础实体。特别地,我们想要检索最终可以映射到lambda变量的所有实体作为答案。聚合函数旨在对特定实体进行操作,通常捕获一些统计属性。

  我们专注于生成具有以下属性的查询图。首先,树图包含一个实体节点作为根节点,也就是主题实体。其次,只存在一个lambda变量x作为答案节点,根节点与该节点有一条直连路径,其中有0个或多个存在变量。我们称这条路径为核心推理链,因为它描述答案节点和主题节点的主要关系。变量只可以在这条链中出现,并且这条链只包含变量,除了根节点。最终,0个或多个实体或聚合节点可以与任意一个变量节点相连,包括答案节点。这些分支是答案需要满足的额外的约束。

  我们使用log-linear模型在状态空间上定义奖励函数。奖励基本上估计查询图正确解析问题的可能性。使用具有优先级队列的最佳优先策略完成搜索。接下来会举一个例子来描述动作序列。

  从初始状态s0s_0s0开始,有效的动作是创建一个与给定问题中找到的主题实体相对应的单节点图。比如,qexq_{ex}qex中可能的主题实体是FamilyGuy或MegGriffin,如Fig. 4所示。

  我们使用实体链指系统来识别实体。对知识库的每个实体,这个系统首先准备了表面形式的词汇库,列举了文本提到的实体e所有可能的形式。它会考虑词典中出现的所有连续词序列,并与其可能的实体配对。然后,基于表面形式词典中的频率计数,通过统计模型对每对进行评分。为了容忍实体链接系统的潜在错误,以及探索更多可能的查询图,最多10个排名靠前的实体被视为主题实体。 链接分数也将用作reward function的特征。

  确定核心推理链,也就是确定主题实体和答案的关系。Fig. 5显示了3条可能的链。给定主题实体e,我们只需要探索可以从e开始的合法谓词序列。当中间存在变量可以与CVT节点相连时,我们探索长度为2的所有路径,如果不是,则探索长度为1的路径。如果在训练数据中观察到组合,我们还考虑更长的谓词序列。

  确定核心推理链,其实就是讲问题映射为正确的谓词序列。我们将这个问题简化为使用神经网络来计算语义相似度。为了处理陈述相同问题的各种语义等价方式,以及知识库中自然语言话语和谓词的不匹配,我们使用Siamese神经网络来识别核心推理链。例如,我们的一个构造将问题映射到模式,方法是将实体替换为通用符号,然后将其与候选链进行比较,例如“who first voiced meg on ” vs. cast-actor。模型由两个神经网络组成,一个处理模式,另一个处理核心推理链。全部都映射到k维向量作为网络的输出。语义相似度通过距离函数计算得到。最近提出了这种连续空间表示方法用于语义解析和问答,并且与词汇匹配方法相比,已经显示出更好的结果。本篇论文采用卷积神经网络框架来解决匹配问题,网络结构Fig. 6所示。

  CNN模型首先对一个单词进行word hashing,将一个单词转换为三元组的向量表示。比如单词“who”的三元组形式为#-w-h,w-h-o,h-o-#,#是单词边界符。然后通过卷积层将3个单词的上下文窗口中的三元组向量进行卷积得到局部上下文特征向量,通过最大池化层提取最显著的局部特征以形成固定长度的全局特征向量,然后将全局特征向量输送到前馈神经网络层以输出最终的非线性语义特征,作为问题模式或核心推理链的向量表示。

  我们的模型与(Bordes et al., 2014a)相比,有两个优点:首先word hashing层控制了输入空间的维度,很容易扩展到大词汇表中,字三元组捕获了更多的语义信息,这使得它特别适合来自现实世界用户的问题;使用卷积池化的深度架构,拥有更强大的表示能力。

  如Fig. 7的s3s_3s3所示,将会检索到所有FamilyGuy扮演过的演员。很明显这检索结果包含正确答案和错误答案。所以我们需要加上约束信息。为了检索答案实体集,拥有核心推理链的图只可以被两种类型的动作扩展:AcA_cAc和AaA_aAa。AcA_cAc是连接一个实体到变量节点可能方式的集合,边表示合法谓词,如s6s_6s6所示。有时,通过聚合函数在整个答案集中描述约束,这种动作由AaA_aAa表示,在一个变量节点中连接一个聚合节点,如s7s_7s7所示。

  通过核心推理链找到y和x节点的邻居节点,以此获得全部的约束集。这会导致很大的约束集。在这篇论文中,使用简单的规则获得合法的约束集。比如,约束节点是一个同时也出现在问题中的实体。聚合节点可以通过关键词匹配,比如“first”、“latest”等等。

  我们使用log-linear模型来学习奖励函数,接下来会描述特征和学习过程。

  将主题实体的规范名称和谓词序列拼接,然后与问题比较。这个特征在概念上尝试验证实体链指的建议。这两个CNN模型是使用问题对和训练数据中的解析的推理链来学习的。除了域内相似性特征外,我们还使用ClueWeb语料库的Freebase注释训练ClueWeb模型。对于可以通过一个或两个谓词链接的句子中的两个实体,我们将句子和谓词配对以形成平行语料库以训练CNN模型。

  当图中存在约束节点时,我们使用一些简单的特征来检查问题中是否存在可与约束实体或属性相关联的单词。相似地,我们在预定义的列表中检查关键词是否存在,比如“first”、“current”、“latest”,作为聚合节点的特征。

  首先问题被认为是一个排名问题。每一个问题会有多个候选的查询图。假设gag_aga和gbg_bgb两张查询图(对应的状态为sas_asa和sbs_bsb)的候选答案集为AaA_aAa和AbA_bAb,A是问题q的真实答案,我们首先计算AaA_aAa和AbA_bAb的准确率、召回率和F1,然后根据F1对sas_asa和sbs_bsb排名。即使查询不完全正确,它仍然比其他一些完全不正确的查询更有用。我们使用一层的神经网络来训练这个排名模型。

  使用WebQuestions数据集,包括5810个问答对。其中65%作为训练集,35%作为测试集。系统的性能由问题回答正确的比率来衡量。一个问题可能有不止一个正确答案,对每个问题计算准确率、召回率、F1。平均F1作为主要评价指标。这里不再介绍实验过程,实验结果如Table 1 表示:

  论文还做了不同模块的系统的影响的实验。如Table 2和Table 3所示:

  随机采样100个没有生成完全准确查询图的问题,对错误进行分类。发现有1/3的错误是标签问题导致,并不是线%的错误是由于实体链指不准确,然而,有些是问题有歧义,表达不清楚,比如问题“Who founded the AFL?”,AFL是表示“American Football League”或“American Federation of Labor”。35%的错误是不正确的推理链。23%是由于约束不准确或丢失。

  部分内容来自摘要该文章分析了传统语义解析方法的不足,受信息抽取和向量建模方法的启发,将语义解析过程转化成查询图(Querygr...博文来自:fly_boss的博客

  semanticparsing调研综述任务说明semanticparsing,语义解析,从名称上来说,是一种相对于语法分析级别上更为高层的分析。具体来说,通常指的是将自然语言转换成为机器可以理解的意义...博文来自:u013011114的博客

  本文的内容主要基于2017年12月2日在苏州大学举办的知识图谱前沿技术课程(感谢各位老师的talk,受益良多)以及本人在之前阅读的有关paper。...博文来自:MrPhD的博客

  论文终于提交了,心情非常激动。。从去年9月开始做知识库问答到现在,总算是可以告一段落了。从前期的调研,到11月份艰难地复现别人的论文,12月1月看论文调模型,中间几近放弃。。3.9又重新开始跑模型,3...博文来自:cookie

  来源:专知本文约1000字,建议阅读20分钟。Github项目iwangjian/Paper-Reading包含了最新的NLP相关论文列表,包括对话系统、文本摘要、主题模......博文来自:THU数据派

  目录知识问答概述和相关数据集问答系统历史答题机器人测评数据集多语种问答QALD的评测指标WebQuestionsFree917KBQA基本概念及挑战知识问答简单流程和分类​基于符号表示(传统...博文来自:liangwqi的博客

  编者按:在我们的生活中,用语音查询天气,用必应搜索信息,这些常见的场景都离不开一种应用广泛的数据存储方式——表格(table)。如果让表格更智能一些,将是怎么样的呢?在这......博文来自:微软研究院AI头条

  ExtractedKBs指直接从网页中抽取出实体关系三元组的知识库。ExtractedKBs知识库涉及到的两大关键技术是实体链指(Entitylinking) ,即将文档中的实体名字链接到知识库中特定...博文来自:Class_guy的博客

  AAAI-19于1月27日在夏威夷召开,今年是33届会议。会议录用论文清单,workshop16个,tutorials24个。标题的词云分析:作者单位词云(按作者人数计算/一篇文章可能有多个作者):p...博文来自:TomRen

  1、网络结构:对于问答匹配问题,很多人提出了深度学习的解决方案,可以尝试将问题及答案抽象成语义向量做内积(如LearningSemanticTextualSimilarityfromConversat...博文来自:斯温的博客

  在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考。在这个栏目里,你会快速get每篇精选论文的亮点和痛点,时刻紧跟AI前沿成果。点击本文底部的「阅读原文」即刻加入社区,查看更多最...博文来自:Paper weekly

  知识图谱(KnowledgeGraph)专知荟萃入门学习大规模知识图谱技术王昊奋华东理工大学 [博文来自:fellowlei的专栏

  知识图谱(KnowledgeGraph)小结一、知识图谱(KnowledgeGraph)主要目的是在海量网络数据中以更直观的方式把知识展现给用户二、KG特征和功能:本质上是一种语意网络,用户查询关键词...博文来自:西北有高楼的专栏

  随着监督学习在机器学习领域取得的巨大发展,如何减少人工在样本方面的处理工作,以及如何使模型快速适应层出不穷的新样本,成为亟待解决的问题。零样本学习(Zero-ShotL......博文来自:开放知识图谱

  这几天,比国庆火车票还一票难求的NIPS2018出最终结果了!作为机器学习领域的顶级会议,今年NIPS 之火爆达到了惊人的程度,投稿数量上升至史无前例的 4856 篇,......博文来自:微软研究院AI头条

  1从输入的数据区分1.1KBQA基于知识库的问答输入:用户自然语言的query+KG输出:从KG找出匹配的答案常用方法:(1)模式,规则主要问题是:实体链接,关系词链接KBQA:AnOnlineTem...博文来自:fkyyly的专栏

  转载链接:作为计算机视觉领域三大顶会之一,CVPR2019(2019.6.16-6.19在美国洛杉矶举办)被...博文来自:maweifei的博客

  本文整理了ImageCaptioning图像描述领域相关的论文以及链接,同时我的GitHub仓库也将持续进行更新,方便对ImageCaptioning领域感兴趣的小伙伴进行学习和交流,欢迎大家Star...博文来自:zhjohnchan

  AI100_机器学习日报2017-10-15近期自然语言生成(NLU)/增强学习(RL)文献选集@爱可可-爱生活可解释性与deeplearning的发展@wx:训练集、验证集和测试集的意义@wx:词袋...博文来自:ai100_ml的博客

  引言图像,通常被理解为矩阵,矩阵的每个元素是像素,像素是(Red,Green,Blue)三个数值组成的向量。换个角度,矩阵也可以理解为图谱(Graph),图谱由点(node)和边(edge)组成。相邻...博文来自:李滚滚的博客

  统计CVPR2019论文(附链接、和代码),更新于4月25日(arXiv最新日期),持续更新中!...博文来自:Sophia_11的博客

  jquery/js实现一个网页同时调用多个倒计时(最新的)nn最近需要网页添加多个倒计时. 查阅网络,基本上都是千遍一律的不好用. 自己按需写了个.希望对大家有用. 有用请赞一个哦!nnnn//jsn...博文来自:Websites

  最近比较有空,大四出来实习几个月了,作为实习狗的我,被叫去研究Docker了,汗汗!nnDocker的三大核心概念:镜像、容器、仓库n镜像:类似虚拟机的镜像、用俗话说就是安装文件。n容器:类似一个轻量...博文来自:我走小路的博客

  本篇文章是根据我的上篇博客,给出的改进版,由于时间有限,仅做了一个简单的优化。相关文章:将excel导入数据库2018年4月1日,新增下载地址链接:点击打开源码下载地址十分抱歉,这个链接地址没有在这篇...博文来自:Lynn_Blog

本文链接:http://ksbuilders1.com/yueshutuili/257.html