首页 » 技术资讯 » LLM高级应用:自动构建特定主题的知识图谱(实体主题关系等人本体)

LLM高级应用:自动构建特定主题的知识图谱(实体主题关系等人本体)

萌界大人物 2024-07-24 02:41:35 技术资讯 0

扫一扫用手机浏览

文章目录 [+]

尽管知识图谱(KG)在问答和智能会话系统等各种任务中得到广泛应用,但现有的知识图谱面临两大挑战:信息粒度有限时效性不足
这些极大地阻碍了从 KG 中检索和分析上下文中的、细粒度的和最新的知识,特别是在高度专业化的主题(例如,专业科学研究)和快速发展的上下文(例如,突发或灾难跟踪)中)。

为了应对这些挑战,我们提出了特定主题的知识图谱(即ThemeKG),这是一个从特定主题的语料库构建的知识图谱,并设计了一个用于 ThemeKG 构建的无监督框架(名为TKGCon)。
该框架采用原始的特定主题语料库并生成高质量的知识图谱,其中包括该主题下的显著实体和关系。
具体来说,我们从维基百科主题的实体本体开始,然后基于该实体本体通过大型语言模型(LLM)生成候选关系来构建关系本体
为了解析主题语料库中的文档,我们首先将提取的实体对映射到本体并检索候选关系。
最后,我们结合上下文和本体来巩固实体对的关系。

我们观察到,直接提示 GPT-4 针对特定主题的 KG 会导致实体不准确(例如查询结果中“两种主要类型”作为一个实体)和不清楚(例如“is”、“has”)或错误的关系(例如“由于”、“开始”)。
相比之下,通过逐步构建特定于主题的知识图谱,我们的模型优于 GPT-4,并且可以一致地识别准确的实体和关系。
实验结果还表明,与各种 KG 构建基线相比,我们的框架在评估方面表现出色。

LLM高级应用:自动构建特定主题的知识图谱(实体主题关系等人本体) LLM高级应用:自动构建特定主题的知识图谱(实体主题关系等人本体) 技术资讯
(图片来自网络侵删)

知识图谱、主题特定、信息提取

†ccs:计算方法 信息提取†ccs:信息系统实体关系模型

LLM高级应用:自动构建特定主题的知识图谱(实体主题关系等人本体) LLM高级应用:自动构建特定主题的知识图谱(实体主题关系等人本体) 技术资讯
(图片来自网络侵删)

图1。
TKGCon:给定一组特定主题的文档,自动构建特定主题的知识图谱。

1.介绍

知识图(KG)(Ji 等人,2022年)集成通过语义上有意义的关系连接的现实世界实体的集合。
它们通常存储结构化的事实知识,以便于访问和信息检索。
KG 已用于各种应用,包括推荐系统(Huang 等人,2018年)、问答(Sun 等人,2019年)、智能对话系统(Lewis 等人,2020b),以及医学概念建模(Gao 等人,2022年)。
现有的知识图谱可以分为通用开放世界知识图谱(包括 Wikidata 1)和特定领域知识图谱(包括 UMLS )(Dettmers 等人,2018年)。

尽管知识图谱应用广泛,但即使在当前大型语言模型(LLM)时代,现有知识图谱也存在两个主要问题。
第一个问题是现有知识图谱的信息粒度有限。
现有的知识图谱,包括特定领域的知识图谱,通常集成大量文本源并涵盖某个主题的全面信息。
它们是为普通公众设计的,并不为特定主题的研究人员提供详细、细粒度的信息。

示例 1(电动汽车电池)。
电动汽车电池为主题,维基数据包含有限且粗粒度的知识三元组,例如(铅酸电池,可充电电池的子类)。
更细粒度的实体(例如,汽车发动机启动电池)不包括在内(虽然它是铅酸电池的一种)。
要查询这些实体的详细信息(例如用途和特征),必须依靠手动检索文档。
此外,LLM很容易对特定主题的这种“长尾”知识产生幻觉(Kandpal 等人,2023年)。

第二个问题是现有知识图谱缺乏时效性。
知识图谱很难跟上现实世界的动态,特别是对于快速变化的事件,因为这种更新通常需要人工/专家注释和指导的巨大努力。

示例 2(哈马斯袭击以色列)。
当一条爆发时,例如哈马斯袭击以色列(2023年10月7日),读者可能想了解和消化国际反应,但现有的KG可能无法及时更新。
LLM 的知识(例如 GPT-4 (Achiam 等人,2023年) ) 也很大程度上受限于训练语料库,无法根据最新的事件和信息进行智能推理。

针对上述问题,本文提出了一种新颖的概念——主题特定知识图谱(ThemeKG),即基于主题特定语料库并支持细粒度、基于主题的分析的知识图谱。
这个想法虽然很有吸引力,但提出了一个重大挑战:手动构建此类图的成本太高——我们需要高质量、自动化的 ThemeKG 构建。

随着LLM的出现,人们可能会想我们是否可以简单地使用LLM来做到这一点。
不幸的是,直接提示 GPT-4 很容易导致事实上不正确的三元组或不当的三元组。
在我们的实验中,GPT4 生成的三元组(铅酸电池,有两种主要类型)包含不准确的实体和不明确的关系,以及包含过于具体和隐含关系的三元组(WhiteHouse, lit up in colors of, the Israel flag))。
为了构建具有显着、清晰和信息丰富
的实体和关系的知识图谱,我们设计了一个用于特定主题知识图构建的无监督框架(名为TKGCon),它将给定主题的原始文档作为输入并生成高质量的关于主题,无需注释或预定义关系的知识图谱。

考虑到特定主题语料库的范围有限,我们利用维基百科和LLM的常识知识生成主题本体(包括实体本体和关系本体)来指导构建。
具体来说,我们收集Wiki中与主题相关的层次类别来构建高层“实体本体”。
然后,我们利用LLM为实体类别对生成潜在的关系候选,以形成“关系本体”。
在主题本体的指导下,我们的框架将识别到的实体输入到本体中,并从LLM中检索候选关系。
最后,我们将候选关系与上下文信息结合起来,以进一步巩固关系。
还要注意的是,关于知识图谱构建的工作有很多,但很少有人关注从原始文本(这是最典型的场景)开始然后产生最终知识图谱的完整框架。
图 1显示了一个示例。

总之,这项工作具有以下贡献:

据我们所知,我们是第一个引入特定主题知识图谱构建设置以及两个新构建的特定主题知识图谱构建数据集的人。
我们提出了一个无监督框架,整合了LLM的自由形式生成能力和通用维基本体的结构化指导,构建了一个细粒度、基于语料库、主题连贯且抗幻觉的 ThemeKG。
更重要的是,我们的框架可以轻松适应任何其他主题,只需要特定于主题的原始语料库。
定量实验和定性分析表明,我们提出的方法在与主题一致的同时实现了先进的实体识别和关系提取性能。
2.相关工作2.1.信息提取2.1.1.关系抽取

关系提取(RE)是识别文本中实体之间语义关系的任务(Jain 等人,2024年;甘等人,2023b;王等人,2023年;古普塔等人,2023年;李等人,2023年;严等人,2023年;孟等人,2023年)。
基于文本模式的方法利用特定于关系的模式和句法解析来提取关系(Mausam、2016年;巴蒂斯塔等人,2015年)。

基于提示调整的方法构建精心策划的提示,从大型语言模型 (LLM) 中提取隐藏的关系知识(Han 等人,2021年;陈等人,2022b,A)。
最近的进展主要在于应用LLM来协助关系的小样本提取(Wadhwa 等人,2023年;万等人,2023年)或关系三元组的综合(Sun 等人,2024年)。
一项研究的特色是专注于解决弱监督或零监督的 RE (Wu 等人,2018年;曲等人,2018年;周等人,2023年)。
为了在稀缺训练信号下最大化模型的关系理解,一些工作利用实体类型信息,使模型能够更好地归纳关系(Chen 等人,2022b;周等人,2023年;胡等人,2024年)。

2.1.2.开放信息提取

在现有的可再生能源工作中,开放信息提取(OIE)(Mausam,2016年;董等人,2021年;魏等人,2023年)是与我们的任务设置密切相关的一系列工作,因为 OIE 从文本中提取关系三元组,而不需要预定义的关系集。
传统的 OIE 模型基于语言特征和统计方法(Mausam、2016年;塞托等人,2018年;加什特奥夫斯基等人,2017年)。
最近,神经 OIE 模型(Kolluru 等人,2020年;休盖特·卡伯特和纳维利,2021年;叶等人,2023a;范和何,2023年;裴等人,2023年)学习提取模式并通过监督学习显示出有希望的结果。
无监督的 OIE 方法(Fu 等人,2023年)主要利用 PLM/LLM 的力量。
我们的工作进一步将无监督的 OIE 扩展到一个新的环境,要求提取的实体和关系与特定主题相关,当没有可用的标记数据时,这尤其具有挑战性。

2.2.KG构造2.2.1.LLM-增强型KG建设

大型语言模型(Brown 等人,2020年;欧阳等人,2022年)已被证明是用于各种自然语言处理应用的多功能工具。
最近的研究(朱等人,2023年;陈等人,2023年;特拉雅诺斯卡等人,2023年;方等人,2024年;魏等人,2024年;李等人,2024年)探索了利用LLM进行知识图谱建设。
塔希尔(2023年)利用提示方法将纯文本转换为KG。
朱等人。
(2023年)提出了 AutoKG,它采用基于多代理的方法,利用 LLM 进行知识图谱构建和推理,而其他一些研究直接查询 LLM 来推理某些实体之间的关系(Chen 等人,2023年)。
叶等人。
(2023b)介绍了CooperKGC,它建立了一个基于LLM的协同处理网络,整合实体、关系和提取的事件进行知识图谱构建。
江等人。
(2023年)生成查询提示以检索外部信息并从 PLM 中探查知识以完成 KG。

2.2.2.特定领域的KG构建

近年来,构建特定领域的 KG 受到了极大的关注(Urchade 等人,2024年)。
传统方法涉及从不同来源提取信息(Yao 等人,2022年),而最近的进展利用LLM进行实体和关系识别。
使用特定领域的本体和数据源构建了针对特定领域(例如地理空间或金融)的专业知识图谱,重点是提取中的噪声过滤、本体对齐和模式集成。
(甘等人,2023a)引入了一种为在线营销量身定制的KG构建方法,该方法用特定领域知识支持的关系过滤过程取代了LLM的关系生成。
他们还利用渐进式提示增强来扩展实体。
(卡里姆等人,2023年)专注于生物医学领域并构建了用于验证基因与疾病关系的领域本体。
他们根据最新的文章和新的知识库,使用LLM进一步微调生物医学知识库。

大多数针对特定领域的知识图谱构建的工作在人工注释和本体构建方面成本高昂,但很难推广到其他领域。
我们的工作重点是自动构建更细粒度、针对特定主题的知识图谱,并且该框架可以轻松应用于其他主题。

图 2.TKGCon的整体框架由(i)本体构建和(ii)ThemeKG构建组成。
对于(i),它利用大型通用维基百科和GPT-4的推理能力来获得给定主题的高质量实体本体和关系本体。
对于(ii),我们首先处理主题文档,通过 SpaCy 进行短语挖掘,通过 ZOE 进行实体键入以检索候选关系。
最后,LLM生成的候选关系通过上下文信息进一步过滤以巩固最终关系。

3.方法3.1.任务制定3.1.1.特定主题的知识图谱(ThemeKG)

与现有的包括一般知识图谱和特定领域知识图谱(关注更广泛的领域,例如生物医学、体育和金融)的知识图谱相比,特定主题知识图谱(i)关注更狭窄的主题(例如电动汽车电池)和哈马斯袭击以色列),可能需要出于特殊目的进行深入探索; (ii) 包含更详细的知识,包括更细粒度的实体和三元组。
例如,(深循环电池,是叉车的动力源)可以是 ThemeKG 中的细粒度三元组,而一般 KG 中的相关三元组可以是(EV 电池,用于电动汽车)
这些更细粒度的三元组可能被视为长尾知识并在以前的知识图谱中被丢弃。

3.1.2.特定主题的知识图谱构建

给定一个特定的主题和一组文档与每个文档ε描述与主题相关的内容,我们的任务旨在从中提取与主题相关的知识三元组格式为(我,,), 在哪里我,εℰ是公认的突出主题特定实体, 和εℛ是描述两个实体关系的开放词汇短语。
这里,ℰ表示实体集,并且ℛ表示主题下的关系集。

示例 3(“EV 电池”ThemeKG 构建)。
给定主题“电动汽车电池”和以下文本:“深循环电池用于提供连续电力来运行电动汽车(如叉车) ”,特定主题知识图构建的输出可能包括以下可能的知识三元组:(深循环电池,提供持续电力),(深循环电池,电动汽车的动力源),(深循环电池,叉车的动力源),(电动车辆,包括叉车)
图 1还显示了通过我们的 TKGCon 方法从主题语料库中提取的一组三元组(以知识图的形式呈现)。

3.2.总体框架

为了处理特定主题的知识图谱构建任务,我们提出的 TKGCon 包括两个主要部分:主题本体构建主题知识图谱构建
总体框架如图2所示 。

主题本体构建:给定一个特定主题,我们构建一个包括实体和关系的本体。
具体来说,我们首先从维基百科2中收集与主题相关的实体类别层次结构作为实体本体(第 3.3.1节)。
然后,对于实体本体中的每对实体类别,我们通过查询LLM来生成潜在的候选关系以构建关系本体(第 3.3.2节)。
主题 KG 构建:给定特定于主题的文档,我们首先挖掘可能的实体提及并将它们映射到实体本体上最接近的类别(第 3.4.1节)。
然后,对于每对实体提及,我们根据它们映射到的实体类别检索候选关系(从关系本体)。
最后,我们结合上下文信息来决定这两个实体提及之间的关系(第 3.4.2节)。
3.3.主题本体构建

直接从纯文本构建 ThemeKG 可能具有挑战性,因为特定主题的语料库可能缺乏用于开放词汇信息提取的基本常识知识。
在没有任何指导的情况下,提取的三元组可能包含不明确的实体(例如“两种主要类型”)或不明确的关系(例如“是”)或与常识不一致。
为了规避这些问题,本文利用大规模通用维基百科的优势和LLM的推理能力,在提取KG三元组之前构建主题本体
主题本体包括根据维基百科构建的实体本体和由LLM生成的高质量关系候选的关系本体。

3.3.1.维基百科的实体本体构建

维基百科是一个包含丰富常识知识的大型在线数据库。
尽管缺乏针对特定主题任务的细粒度细节,但 Wikipedia 3中的分类功能可以以自上而下的方式提供有关主题的高质量、人工策划的高级概念/类别的层次结构。
对于维基百科中没有包含的任何实体(例如富液式铅酸电池),我们仍然可以找到其类别路径(电池→可充电电池→铅酸电池),并将其用作主题的外部知识。
该层次结构被称为“实体本体”,其中节点是来自 Wiki 的高级概念/类别。

我们展示了实体本体构建的具体示例。
给定一个特定的主题,例如电动汽车电池,我们选择维基百科分类中的相关概念作为初始根节点:电池(电力)车辆
然后我们在Wiki Category页面上收集它们的子树作为该主题的基本实体本体,包括电池发明者、充电电池、电池充电器等节点。
本体中的每个子节点表示一个子类别。
请注意,来自 Wiki 的原始本体可能包含不相关的连接,因此我们通过预训练的变压器 all-MiniLM-L6-v2 4计算出的父节点和子节点的相似度来过滤掉错误的连接(Vaswani 等人, 2017年)(稍后会再次使用)。
在 ThemeKG 构建步骤中,随着文档中发现新类别的实体,可以进一步扩展实体本体。

3.3.2.LLM的关系本体构建

在特定于主题的上下文下直接生成实体对的关系可能会导致不期望的变化甚至错误。
例如,生成的关系可能过于笼统(例如,“是”)、过于具体(例如,“是最古老且最便宜的电池”)、过于隐含(例如“以颜色点亮”)或错误(例如,三元组中的“启动” (充电率、启动、发动机))。
我们观察到,从实体类别生成的关系通常比从特定主题实体生成的关系更稳健。
为了构建一个具有显着、清晰且信息丰富的关系的知识图谱,我们做出以下假设:

假设1。

给出实体类别乙1和乙2来自 Wiki 本体论,来自实体的可能关系集1ε乙1到实体2ε乙2,是类别中可能关系的子集乙1分类乙2。

例如,我们知道从充电电池类别到电动汽车类别的可能关系可以是{ “是……的动力源”、“被回收”、“被……管理” }。
然后,我们可以推断出以下关系:1ε乙1(例如,深循环电池,这是一种可充电电池)2ε乙2(例如,叉车,这是一种电动车辆)应在集合内。

因此,我们通过以下方法构建“关系本体”。
对于给定的一对实体类别(乙1,乙2)在从 Wiki 收集的实体本体中,我们遵循假设并查询 LLM 来推理潜在的候选关系5。
最终的关系本体是从类别对到候选关系集的映射:(乙1,乙2)→ℛ。
我们使用的提示如下:

给定主题[主题],从[类别1]到[类别2]可能存在哪些关系?按以下格式列出答案:([类别 1], ___ , [类别 2])

在这里,LLM的常识性知识可以弥补特定主题数据有限的不足。
对于最新的特定主题(例如哈马斯攻击以色列),只要预先训练的LLM知道该实体的附属类别,该方法就可以推理出潜在的关系。
请注意,我们还限制了 Wiki 实体本体的深度,以防止实体类别过于细粒度,这可能会在查询 LLM 时引起幻觉。

3.4.主题KG建设

我们观察到,知识图谱构建的端到端方法往往会丢失三元组,尤其是对于文档级提取。
我们的框架可以通过遵循首先识别实体然后提取它们的关系的管道来有效地避免这个问题。

3.4.1.实体识别和打字

给定一组关于给定主题的文档,我们的 TKGCon 首先提取可能的实体提及,稍后将其映射到实体本体上的类别。
由于数据有限和未见过的细粒度实体,我们发现大多数现有的短语/实体提取方法,例如 AutoPhrase (Shang 等人,2018年)的召回率较低。
为了确保高召回率,我们的方法首先通过 SpaCy 获取名词块(Honnibal 和 Montani,2017年)如候选实体提到的。
然后,我们通过一组规则过滤掉嘈杂的提及(例如“本身”、“功能”)或嘈杂的修饰语(例如短语“最常见的车辆电池”中的“最常见” )。

根据 POS,有效提及应至少包含一个名词,且不得包含代词/停用词。
在大语料库6中频率较高且主题连贯性较低的短语(类似计算可参考式(2))被视为噪声提及(例如“cases”)。
与其他词出现频率高、共现率低的非名词应该是噪声修饰语(例如“实际”)。

根据主题文档中提到的实体,我们将它们映射到最接近的 Wiki 类别。
我们考虑两种情况。

情况 1:对于直接匹配维基百科页面标题的提及,我们将页面标题视为实体,将页面底部的类别视为关联类别。
然后,我们计算两个分数,以确定集合中的哪个类别是最佳匹配:(i)实体之间的自连贯性和类别乙; (ii)主题之间的主题连贯性和类别乙。
(1)⁢⁢我⁢=因斯⁡(右⁢⁢⁢(乙),右⁢⁢⁢()),(2)⁢⁢⁢米⁢=因斯⁡(右⁢⁢⁢(乙),右⁢⁢⁢())。
交涉右⁢⁢⁢(⋅)由预先训练的变压器提供(Vaswani 等人,2017年)。
获得后⁢⁢⁢米⁢,我们首先使用阈值过滤掉与主题无关的类别。
如果过滤后没有留下类别,我们认为实体提及也与主题无关;否则,我们对乘法值进行排序⁢⁢我⁢×⁢⁢⁢米⁢对于集合中的每个剩余类别,找到与最大值对应的最佳匹配。
情况 2:如果该提及在维基百科中没有直接匹配,我们将执行以下操作。
对于实体提及和背景,我们采用 ZOE 的想法(Peters 等人,2018年a)根据实体本体来键入实体。
具体来说,对于每个类别乙在本体中,我们使用预先训练的 ELMo (Peters 等人,2018b)计算上下文一致性得分磷⁢(乙∣,)就像佐伊所做的那样。
如果分数达到较低的阈值,则意味着我们无法在现有实体本体中找到适当的匹配。
在这种情况下,我们然后应用显式语义分析(Gabrilovich 等人,2007年)快速检索相关的维基百科类别作为候选集。
类似地,我们采用自连贯性和主题连贯性分数来确定最佳匹配类别,或者如果候选集中没有一个类别具有高的类别,则认为该实体与主题无关。
⁢⁢⁢米⁢。
3.4.2.关系检索和提取

给定两个实体提及,我们介绍如何通过合并上下文信息来提取它们的关系。
对于一对实体提及(1,2),假设他们输入的(即最匹配的)类别是(乙1,乙2),我们首先从主题关系本体中检索候选关系。
为了提高准确性、多样性和覆盖率,我们还根据父节点检索关系乙1和乙2在实体本体中并将这些候选关系合并在一起。

然后,我们通过LLM根据上下文(包含实体的相邻句子)选择最合适的关系,因为关系提取需要语义理解和推理能力。
在此之前,我们将关系添加到候选关系中,以防实体提及对无法根据上下文在候选集中找到合适的关系。
我们使用的提示符如下:

请根据上下文在[entity1]到[entity2]的候选集中选择最合适的关系。
如果候选集中的所有关系都不适合,请选择无。
输出格式应为(实体1,关系,实体2)。
上下文:[上下文]。
候选关系:[relation1、relation2、…、none]

如果输出关系为none,则 (i) 两个实体不具有文档中的事实关系;或者(ii)在关系本体构建过程中,LLM错过了这两个实体之间的关系(这种情况很少见)。
对于这两种情况,在没有进一步指导的情况下,我们再次查询 LLM 以根据上下文直接提取实体关系或输出none
该提示如第4.5节所示 。
如果LLM没有给出答案,我们将其视为情况(i);否则,我们生成一个三元组(实体1,关系,实体2)并添加这个新关系以丰富主题关系本体。

最后,我们组织这些有效的三元组以获得特定于主题的知识图谱(ThemeKG)。

4.实验

我们的框架旨在利用与给定主题相关的有限文档从头开始构建特定于主题的知识图谱。
该任务与文档级开放信息提取密切相关。
本节根据现有基线模型评估我们的 TKGCon 在构建两个特定主题知识图谱方面的性能。

表格1。
数据集统计

数据集

文件

实体

关系

三元组

评估板

20

130

64

330

医院感染

20

142

77

425

4.1.数据集收集

为了验证我们框架的有效性,我们选择两个主题并收集语料用于特定主题的知识图谱构建:EV Battery (EVB)Hamas-attack-on-Israel (2023) (HAI)
具体来说,对于每个主题,我们根据四个标准从在线来源收集文档:(i)与给定主题的相关性,(ii)源内容的可靠性,(iii)描述细节的粒度,以及(iv)有关主题的信息的多样性。

电动汽车电池(EVB)是行业的传统主题,而现有知识图谱中几乎没有包含该主题的具体术语或其他细节。
哈马斯攻击以色列(2023)是界的最新主题,其中有许多新实体(例如“新星音乐节”)未包含在现有知识库中。
对于每个主题,我们主要从各种在线数据库(例如纽约时报、CRS Reports 7)中收集了20篇与该主题相关的高质量且有代表性的文档。
然后,我们在两个语料库的文档级别注释实体和三元组,以生成用于评估的黄金主题特定知识图。
EVB和HAI两个数据集的统计数据如表1所示 。

表 2.与 KG 构建基线的比较。

数据集

方法

Entity Metric

Triple Metric

Theme Metric

Recall

Precision

F1-score

Recall

Precision

F1-socre

Coherence

评估板

OpenIE (毛萨姆,2016年)

0.62

0.36

0.46

0.13

0.24

0.17

0.46

REBEL (休盖特·卡伯特和纳维利,2021年)

0.22

0.80

0.35

0.11

0.80

0.19

0.80

IMoJIE (Kolluru 等人,2020年)

0.44

0.49

0.46

0.26

0.45

0.33

0.78

KG-GPT (塔希尔,2023年)

0.72

0.69

0.70

0.67

0.64

0.65

0.95

GPT-4 (Achiam 等人,2023年)

0.68

0.71

0.69

0.64

0.65

0.64

0.97

TKGCon(无本体)

/

/

/

0.67

0.57

0.62

0.92

TKGCon

0.92

0.80

0.86

0.78

0.73

0.75

0.97

医院感染

OpenIE (毛萨姆,2016年)

0.52

0.28

0.36

0.17

0.22

0.19

0.35

REBEL (休盖特·卡伯特和纳维利,2021年)

0.16

0.87

0.27

0.15

0.75

0.25

0.75

IMoJIE (Kolluru 等人,2020年)

0.33

0.39

0.36

0.25

0.31

0.28

0.83

KG-GPT (塔希尔,2023年)

0.84

0.79

0.81

0.72

0.69

0.70

0.91

GPT-4 (Achiam 等人,2023年)

0.82

0.80

0.83

0.70

0.72

0.71

0.93

TKGCon(无本体)

/

/

/

0.75

0.62

0.68

0.88

TKGCon

0.90

0.88

0.89

0.81

0.75

0.78

0.92

这些数据集可以用作特定主题的知识图构建或实体识别和开放关系提取等子任务的基准。

4.2.评估指标

给定目标主题特定的 KG,=(ℰ,ℛ,)和生成的KG,^=(ℰ^,ℛ^,^)和ℰ,ℰ^表示黄金和公认实体的集合,ℛ,ℛ^表示黄金集合和生成关系,以及,^表示黄金组和提取的三元组(我,,)。
我们从不同角度定义了以下评估指标来评估生成的KG的质量。

实体指标。
我们使用精度、召回率和 F1 分数来评估提取的实体。
由于KG构建是一项开放任务,因此如果识别的实体合理但未包含在黄金集中,则不会对精度造成惩罚ℰ。
此外,如果两个实体是电动汽车电池电动汽车电池等实体的语义匹配共指,我们将它们视为相同。
三重指标。
我们使用精度、召回率和 F1 分数来评估生成的三元组。
由于关系可以解释为各种表达式,例如的子类的类型,因此我们应用软匹配(Jiao 等人,2022年)通过获得预训练变压器的嵌入并计算提取的三元组和黄金三元组之间的余弦相似度。
主题连贯性。
原始文档通常包含噪声信息。
我们期望 KG 重点关注与主题相关的实体和关系。
因此,我们提出了一个度量来评估三元组的主题连贯性。
我们通过预先训练的变压器计算三元组和主题描述之间的余弦相似度。
具有高相似度的三元组被视为主题连贯三元组,因此主题连贯性的度量由所有生成的三元组中主题连贯三元组的比率来定义。
4.3.基线

我们考虑现有的开放知识图构建方法,包括两个基于 GPT-4 的基线。

OpenIE (毛萨姆,2016年)是一个开放的信息提取系统,可以从纯文本中提取关系三元组。
该基线主要关注文本的句法模式,以弥补监督信号的缺乏。
REBEL (休盖特·卡伯特和纳维利,2021年)是一个生成框架,它将 KG 构建制定为序列到序列任务,基于 BART 提取输入文本中的所有三元组(Lewis 等人,2020年a)。
该模型在通用语料库上进行了预训练,并在我们的语料库上进行了评估。
IMoJIE (Kolluru 等人,2020年)是一个基于 BERT 的 OpenIE 系统,它使用迭代 Seq2Seq 模型生成信息提取。
我们使用在 CaRB 上训练的模型(Bhardwaj 等人,2019年)数据。
知识图 GPT (KG-GPT) 8 (塔希尔,2023年)是一个用GPT-4将纯文本转换为知识图谱的工具。
该方法设计提示以 RDF Tuples 9的风格生成结果。
我们还直接采用GPT-4 10(Achiam 等人, 2023年)作为基线,通过端到端的方式进行提示。
我们使用上下文学习一次查询一个主题文档,然后将生成的三元组组合在一起。
我们使用的提示是:给定主题[Theme],从以下文本中提取所有格式为(entity1,relation,entity2)的知识三元组:[document]。

图 3.ThemeKG 和 WikiData 关于电动汽车电池的比较。
对于主题EV Battery,左侧是我们从特定主题文档语料库中提取的 ThemeKG 的一部分。
右侧的三元组是从相同主题的 WikiData 中检索的。
与 WikiData KG 相比,我们的 ThemeKG 包含更具体的主题实体和关系。

4.4.主要结果分析

我们将我们提出的框架 TKGCon 与数据集 EVB 和 HAI 上的基线进行比较。
实体、三元组和主题的评估结果如表2所示。

我们首先评估并比较所有模型的输出 KG 中提取的实体。
表2中的结果表明,我们的 TKGCon 在所有指标上都可以大大优于其他基线方法。
基于语言的 OpenIE 在非基于 GPT 的基线中具有相对较高的召回率。
然而,该模型缺乏对语义的理解,因此 OpenIE 中提取的实体通常不完整、错误和有噪声,尤其是在处理长且复杂的句子时,导致精度和 F1 分数较低。
KG-GPT和GPT-4等端到端KGC方法包含过于具体的实体(例如“两种主要类型”)并且优化不灵活。
与端到端方法相比,我们的 TKGCon 可以通过显式短语挖掘极大地提高实体的召回率,并通过中间步骤中的实体过滤提高精度。

我们的 TKGCon 还显示出在三元组提取和主题连贯性方面比基线有了相当大的改进。
具体来说,由于缺乏语义理解,OpenIE 生成的输出质量相对较差。
虽然像 REBEL 和 IMoJIE 这样的监督序列生成方法具有稍好的精度和主题连贯性,但由于难以泛化到训练数据集之外的看不见的关系,因此它们的召回率较低,而我们的数据集包括许多细粒度和主题——具体关系。
GPT-4具有理解和总结的能力,因此其诱导模型(GPT-4和KG-GPT)与其他模型相比有显著的改进。

然而,在 ThemeKG 的设置中,这两个基于 GPT-4 的模型仍然可能会生成模糊且不合逻辑的关系或实体(详细信息和示例可以在第 4.6节中找到)。
与端到端模型相比,我们的框架 TKGCon 将 ThemeKG 构建分为多个阶段,可以有效提高文档级三元组的召回率。
在主题本体的指导下,TKGCon 能够提取更高质量的关系,并在三倍 F1 分数上优于基于 GPT 的方法,同时获得与 GPT-4 相当的有竞争力的主题连贯性。

表3。
三元组的例子。
粗体表示正确的三元组。

方法

提取的三元组(在相同的纯文本上)

OpenIE

(lead acid batteries, have compared, rechargeable batteries), (It, is, first type), (calendar, impede, lifecycle), (lead acid batteries, have, energy density), (features, make along, their cost), (overall lifespan, is in, discharged state), (lead acid batteries, suffer from, cycle lifespan), (deep cycle batteries, are, used), (percentage, provide, charge rates)

GPT-4

(lead–acid battery, is a type of, rechargeable batteries), (lead–acid batteries, have, low energy density), (lead-acid batteries, have, two main types), (lead-acid batteries, suffer from, relatively short cycle lifespan), (lead-acid batteries, have due to, ”double sulfation” in the discharged state), (lead-acid batteries, types, deep cycle batteries), (high charge rates, to start, engine), (flooded lead-acid batteries, are, vehicle batteries), (deep cycle batteries, require, multi-stage charging), (deep cycle batteries, used in, electric vehicles like forklifts or golf carts)

TKGCon

(lead acid batteries, be a type of, rechargeable batteries), (lead acid batteries, be characterized by, low energy density), (lead acid batteries, be limited by, cycle lifespan), (cycle lifespan, be shortened by, discharged state), (flooded lead acid batteries, be a type of, vehicle batteries), (automobile engine starter batteries, be different from, deep cycle batteries), (deep cycle batteries, be power source of, forklifts), (deep cycle batteries, be power source of, golf carts), (deep cycle batteries, be used to store, continuous electricity)

4.5.消融研究

本质上,我们的框架可以分为两个连续的阶段:实体识别(图 2中的步骤 1 )和本体引导的关系提取(图2中的步骤 2、3 和 4 )
为了验证关系本体的有效性,我们构建了一个新的模型变体,名为TKGCon(无本体),它利用我们框架中的实体识别(步骤 1),然后直接查询 GPT-4 以生成基于实体之间的关系。
就上下文而言。
查询关系提示如下:

在以下段落中提取从 [entity1] 到 [entity2] 的关系:[context]。
请以([实体1],[关系],[实体2])的格式输出。
如果根据上下文没有识别出从[entity1]到[entity2]的关系,则输出none。

TKGCon(无本体)的性能已添加到表2中。
请注意,我们的模型和此变体使用相同的实体识别步骤,因此它们的实体指标都是相同的。
对于所有三重指标和主题连贯性,此变体模型始终提供较低的性能。
如果没有主题本体的指导和限制,变体模型在直接查询 GPT-4 时会生成错误的关系。
例如,它生成的三元组(辅助电池,用作休闲车)(检查,要求检查,电解质水平)显然是有问题的,因为电池不能“用作”车辆,检查不应该有“要求”的关系检查”

此外,TKGCon(没有本体论)倾向于给出毫无意义的短语作为关系,例如(收费率,提供高,高尔夫球车)(电动汽车,值得注意的例外,底特律电力)
相反,基于本体的TKGCon可以借助实体本体和关系本体来避免这种情况,例如(休闲车,配备,辅助电池),(检查,需要维护,电解质水平)

4.6.案例分析

本节以主题EV电池为例,直观展示ThemeKG与Wikidata之间的差异。
此外,我们将提取的 TKGCon 三元组与基线结果进行比较。

4.6.1.与维基数据相比

图 3展示了ThemeKG和Wikidata对于电动汽车电池的差异。
由于篇幅限制,我们在构建的 ThemeKG 中仅展示了与铅酸电池相关的三元组部分(图3左侧 )。
我们还在 Wikidata 11上检索相关主题的三元组(图3右侧 )。

我们观察到,我们构建的 ThemeKG(来自原始电动汽车电池文档)包含更细粒度的实体,例如富液式铅酸电池、汽车发动机启动电池,这些实体未显示在右侧。
ThemeKG还包含有关该主题的更广泛、更细粒度的知识三元组(例如铅酸电池、受限于、循环寿命),而Wikidata仅包含一些粗粒度的三元组。
因此,我们声称与现有的 KG 相比,ThemeKG 可以提供特定主题更广泛、更深入的细节。

4.6.2.与基线相比

我们还对 TKGCon 中提取的一些三元组进行了采样,并将它们与表3中 OpenIE、GPT-4 的输出进行比较。
我们可以观察到 OpenIE 遗漏了许多与主题相关的实体和三元组,因为该方法基于语言分析而不了解主题。
当句子又长又复杂时,它还会导致毫无意义的三元组。
GPT-4由于文本理解能力较强,效果相对较好。
然而,直接提示 GPT-4 会使实体过于具体(例如,“叉车或高尔夫球车等电动车辆”)或导致含糊不清(例如,“is”、“have”、“were”)和错误的关系(例如,“由于”、“开始”)。

我们的TKGCon将ThemeKG构建任务分解为几个步骤,有效优化了每个步骤,提高了实体的质量和召回率。
在示例中,TKGCon 提取更准确的实体,例如“叉车”“高尔夫球车” (与 GPT-4 生成的过于具体的实体“叉车或高尔夫球车等电动车辆”相比)。
此外,TKGCon从关系本体中检索候选关系,这可以防止关系歧义并提高关系提取的准确性。
例如,我们的方法生成“be power source of”而不是“used in”(由 GPT-4 生成)。
此外,受益于本体论,TKGCon 提高了关系的一致性,而 GPT-4 生成的关系常常不稳定(例如“is a type of”、“types”、“are”表示同一类关系)。

4.7.ThemeKG的应用

ThemeKG 是针对特定主题的细粒度知识的压缩和结构化集合。
除了直观地获取知识之外,ThemeKG 还可以用作外部工具来促进下游任务。
例如,LLM可能会引起对细粒度细节的幻觉,并且不拥有特定主题的最新信息。
在这种情况下,我们的 ThemeKG 可以作为工具来检索和加载,以增强 LLM。

本部分测试模型针对特定主题的问答 (QA) 能力。
我们考虑以下模型。

ThemeKG 增强的 GPT-4 (TKG+GPT4)使用 GPT-4 中的 ThemeKG(格式为三元组列表)进行上下文 QA,因为 ThemeKG 比整个主题语料库压缩程度更高。
Vanilla GPT-4直接使用 GPT-4 进行 QA。
使用 GPT-4 (RAG+GPT4) 进行检索增强生成 (Lewis 等人,2020c)是一种代表性方法,从外部知识库检索事实,以在准确、最新的信息上增强 GPT-4。
我们将原始主题语料库作为 RAG 进行 QA 的外部数据库。

表 4列出了主题Hamas-Attack-on-Israel (2023)的示例 (QA输出的冗余句子全部被删除)。
问题是“在2023年10月哈马斯对以色列的袭击中,哪些国家支持哈马斯或谴责以色列?”
要回答这个问题需要整合多个文档的信息。
显然,仅靠 GPT-4 无法处理最新信息。
RAG+GPT4检索了部分相关事实,但遗漏了诸如提及伊朗波斯湾国家的文本等信息。
我们的TKG+GPT4可以直接整合来自三元组的信息,例如(伊朗,向哈马斯提供援助)(朝鲜,谴责,以色列),而不需要对文件进行总结和推理。
从本质上讲,ThemeKG可以为LLM提供及时、细粒度的信息,并提高他们对主题的推理和总结能力。

在未来的工作中,我们将进一步探索 ThemeKG 在更多场景中的其他用途,例如个性化推荐和以不同 ThemeKG 作为插件的工具学习。

表 4.ThemeKG 增强的 GPT-4 在 QA 任务上的示例。
粗体字是正确答案。

问题

2023年10月哈马斯袭击以色列,哪些国家支持哈马斯或谴责以色列?

香草 GPT4

抱歉,截至 2023 年 3 月我的所知截止日期,我没有 2023 年 10 月发生的具体事件的信息。

RAG+GPT4

在中东和北非,大多数国家要么谴责以色列,要么全力支持哈马斯。
据称朝鲜也谴责以色列。

TKG+GPT4

1.伊朗、2.波斯湾国家、3.朝鲜、4.大部分中东国家、5.大部分北非国家

5.结论

本文提出了一种自动化知识图谱构建方法(名为 TKGCon),用于从原始主题语料库构建特定于主题的知识图谱(ThemeKG)。
现有的通用或特定领域的知识图谱可能在信息粒度和时效性方面受到限制,而我们重点关注的 ThemeKG 包含细粒度的、及时的、特定于主题的实体和关系,提供更多与主题相关的细节(例如最近的专业术语或关键事件))用于下游应用。
我们的方法利用维基百科中精心策划的主题本体信息以及LLM强大的推理能力来生成关系候选。
电动汽车电池哈马斯袭击以色列的实验表明,与现有的各种KG构建方法相比,TKGCon可以自动生成细粒度、高质量的ThemeKG。

标签:

相关文章