固化知识资产框架

最后更新于：2025-11-19 10:47:51

固化知识资产框架

第 1 部分：知识固化的基本原理：从隐性经验到显性资产

1.1 定义知识：隐性（“Know-How”）与显性（“Know-That”）

组织知识资本管理中的根本挑战在于区分两种核心知识类型。权威的学术课程框架，例如由计算机协会 (ACM) 发布的框架，对此做出了明确区分。1 显性知识，或“知其然” ($know-that$)，被定义为构成知识维度的核心理念、原则和内容。相比之下，隐性知识（Tassitiewe kennis），或“知其所以然” ($know-how$)，是一种熟练的行动，需要持续的参与、刻意的练习和互动才能发展。1

正如技术知识管理文献所概述的，主要的组织风险在于隐性知识固有的“流动性”。3 这种知识包括技能、能力、理解和洞察力，通常未被编入正式系统。因此，当拥有深厚经验的个人离开组织时，他们的关键能力也随之离开，并常常成为竞争对手的战略优势。3 因此，先进知识管理系统 (KMS) 架构的核心目标是防止这种损失。传统的信息系统设计历来忽视了这一方面；然而，现代架构必须从根本上支持隐性知识的共享和转移。3

1.2 知识获取 (KE) 的方法论

在隐性知识作为资产被建模之前，必须首先从人类专家那里获取（elicited）它。知识获取 (KE) 过程是一个成熟的学科，拥有多种方法论，旨在捕获不同类型的知识（显性或隐性，概念性或过程性）。4 特定 KE 技术的选择决定了所捕获信息的初始结构。多种形式化的方法论为这一转换提供了技术途径。

1.2.1 方法论分析 1：MACTAK 方法论

对于团队或流程中集体拥有的知识，MACTAK 方法论提供了一种结构化方法。该框架专门设计用于将集体隐性知识转换（transform）为显性形式。6 MACTAK 过程结合使用了知识获取技术和相关的质量工具，所有这些都通过一种称为 systematography 的方法论进行结构化。6

该方法论的关键输出是双重的：获取的知识首先以符号语言表示，其次以产生式规则 (production rules) 的形式进行编码。6 这些规则随后被用于构建专家系统 (expert systems)。一个有据可查的应用是开发系统，以辅助工业金属包装过程中缺陷原因的调查。6

1.2.2 方法论分析 2：关键决策法 (Critical Decision Method - CDM)

与 MACTAK 的集体焦点不同，关键决策法 (CDM) 是一种认知任务分析技术，主要侧重于获取个体专家的深度知识。8 正如电气与电子工程师协会 (IEEE) 的出版物所引用的，CDM 对于捕获专家在非例行关键事件期间使用的决策过程特别有价值。10 在其他方法可能专注于异常检测的地方，CDM 专注于构成专家经验核心的高风险、战略性决策。10 该方法是应用认知心理学和依赖专家判断的系统开发中的基石。9

1.2.3 方法论分析 3：神经-符号架构

新兴研究正在探索使用混合认知框架来获取隐性知识。一种提议的此类架构是作为混合神经-符号系统运行的。11 这种方法集成了三个层次：一个亚符号层（使用神经网络执行亚符号任务）、一个概念层和一个符号层。11 这种架构试图弥合亚符号模式识别与高级符号推理之间的差距，从而实现对隐性知识更细致的捕获。

1.3 知识获取的架构启示

对这些 KE 方法论的分析揭示了一个关键的架构决策点。方法论的选择取决于组织希望固化的隐性知识的类型。为了捕获资深工程师或分析师的直觉性、情景性决策，关键决策法 (CDM) 是一种有据可查且合适的方法。10 为了编码集体最佳实践，例如团队对制造生产线优化过程的共同理解，MACTAK 方法论更为合适。6

此外，传统 KE 方法论的输出造成了一个显著的架构“鸿沟”。由 MACTAK 6 等框架生成的“产生式规则”和“符号语言”，是为旧的技术范式——专家系统而设计的。这些基于规则的格式与下一节中所需的、基于图的现代知识模型不直接兼容或可消费。因此，必须在整体架构中包含一个必要的转换和建模步骤。此步骤必须将获取的、基于规则的符号知识，进行“翻译”或重新建模，使其成为构成现代、可验证资产基础的形式化、结构化本体和知识图谱。

第 2 部分：结构化知识模型：用于可验证性的本体和知识图谱

2.1 本体在资产建模中的作用

一旦获取了隐性知识，就必须将其固化为形式化的、机器可读的、无歧义的结构。本体 (Ontologies) 提供了这种结构。本体是领域内知识的形式化表示，明确定义了概念、它们的属性以及它们之间的相互关系。12 本体旨在限制术语的可能解释，并创建一个基于共识的精确模型。12

在将经验转换为资产的背景下，本体被用来开发“基础资产管理本体” (fundamental asset management ontology)。14 这些本体不是在真空中创建的；它们是根据记录组织经验的精确来源编制而成的。这包括：技术文档、设备计划、维护合同，以及最关键的“干预报告” (intervention report)。14 这些包含观察和技术评论的干预报告，代表了专家将其（干预）“经验”直接编码为结构化（本体）“资产”的过程。

这种方法被包括 ACM 和 IEEE 在内的专业学术和研究机构广泛使用。这些组织使用本体和其他知识组织系统 (KOS) 作为必要机制，来组织、分类和使数字图书馆中的海量信息可检索。16

2.2 知识图谱 (KGs) 作为可验证的框架

本体是更大、更动态结构——知识图谱 (KG)——的模式 (schema)。在权威的技术文档中，例如来自 IBM Research 的文档，知识图谱被定义为处理“结构化、可验证知识”的主要机制。17

像微软这样的科技公司使用知识图谱工具作为核心组件，以促进 AI 的可解释性、模型编辑和确保鲁棒性。19 它们在现代 AI 架构中的主要功能是为知识图谱-检索增强生成 (KG-RAG) 奠定基础。这种将大型语言模型 (LLM) 与结构化 KGs 直接连接的模式，具有双重的、有据可查的目的：1) 减少事实不准确或“幻觉”的发生，以及 2) 揭示 AI 生成答案背后的“推理痕迹” (reasoning traces)。17

这些架构还被设计为集成多模态信息。知识图谱中的节点可以包括图像、视频或音频，然后通过多模态编码器将其转换为与生成模型兼容的嵌入 (embeddings)，从而实现更丰富、更具上下文的响应。20

2.3 用于一致性的语义验证

“可验证性”的要求不是一种被动状态；它是一个主动的、计算的过程。当一个组织集成多个知识来源（例如，将工程本体与维护本体合并）时，就会出现语义不一致的风险。学术文献，包括发表在 ACM SIGMOD Record 和 IEEE Transactions 上的文献，指出了需要进行形式化的“本体匹配” (ontology matching) 来对齐这些资产。21

处理此问题的一种高级机制是带有验证的自动语义匹配算法（例如 ASMOV）。这类算法的工作原理是：迭代计算两个本体之间的相似度度量，推导出一种对齐 (alignment)，然后最关键的是，验证该对齐。21 此验证步骤使用形式语义来确保计算出的一致性不包含“语义不一致” (semantic inconsistencies)，并符合期望的逻辑属性。21

2.4 结构化建模的架构启示

使用本体和知识图谱在两个明确的技术层面上实现了“可验证性”的要求。首先，通过将知识组织成形式化的、基于模式的 KG 格式，实现了结构可验证性。17 这确保了所有数据都符合预定义的模型。其次，通过主动应用算法（例如 IEEE 和 ACM 出版物中描述的算法 21），实现了语义可验证性，这些算法在数据集成和合并期间强制执行逻辑一致性。21 因此，可验证性是一个主动的、计算的一致性检查过程，而不是一个静态属性。

此外，选择知识图谱（第 2 部分）是实现“可归因的智能协作”（如第 5 部分所要求）最终目标的直接技术促成因素。表明 KG-RAG 能“揭示推理痕迹” 17 的技术文档是其中的关键环节。KG 的固有结构（例如 $实体-关系-实体$ 三元组）提供了一个显式的、可审计的路径。RAG 系统可以遵循此路径，并将其作为生成答案的直接、可归因的证据呈现给最终用户，从而解决了许多 AI 系统的“黑盒”问题。

第 3 部分：不可变审计链：用于溯源和信任的区块链架构

3.1 去中心化可审计性的原则

为确保知识资产不仅在创建时可验证，而且在其整个生命周期中都可验证，需要一个强大的审计追踪。区块链技术在包括 IEEE 和 ACM 出版物在内的广泛学术和技术出版物中，被认为是一个有前途的去中心化平台，可用于构建“防篡改” (tamper-proof) 系统。22

该技术直接适用于此架构的核心优势被记录为“去中心化、持久性、匿名性和可审计性”。24 在高合规性部门（如医疗保健），其实施被特别引用为一种提高服务“透明度和可审计性”的机制。25

其技术机制是维护“数据溯源” (data provenance)。22 在此背景下，溯源是追踪数据项起源和生命周期的能力。基于区块链的溯源系统追踪数据记录操作，并将该溯源数据“锚定”在不可变的、分布式的账本中。22 这种方法使信任去中心化，减少了对任何单一权威的依赖，并提高了系统对故障或恶意攻击的整体弹性。26

3.2 架构分析 1：ProvChain (IEEE/ACM)

实现这一点的一个特定架构模式是 ProvChain，这是一个在 IEEE/ACM 国际研讨会上提出的框架。28 ProvChain 是专门设计为云环境 (cloud environment) 中基于区块链的数据溯源架构。2

该系统的运行基于三个阶段：

收集：该系统可以构建于开源云应用之上，收集溯源数据。2

存储：它将这些溯源数据记录锚定在区块链交易中。22

验证：该架构包括一个称为“溯源审计员” (Provenance Auditor) 的关键组件。该实体的特定角色是检索和验证存储在溯源数据库中的信息。31

ProvChain 架构的目标是为云存储应用中的数据操作提供防篡改的保证，同时增强该溯源数据的隐私性和可用性。2

3.3 架构分析 2：SmartProvenance (ACM)

另一种更去中心化的模式是 SmartProvenance，这是一个在 ACM 会议上提出的分布式 (distributed) 系统。28 该架构通过使用主动治理机制而有显著不同。

SmartProvenance 利用两个关键组件：

智能合约 (Smart Contracts)：该系统利用智能合约来执行自动和可审计的授权。35 这些智能合约用于记录不可变的数据轨迹 (immutable data trails)。35

开放溯源模型 (Open Provenance Model - OPM)：它采用形式化的 OPM 模型来构建溯源数据。35

SmartProvenance 的机制旨在安全地捕获和验证溯源数据，以防止任何恶意修改，只要网络中的大多数参与者保持诚实。35 其最显著的特点是实施了“投票合约” (Vote contract)。35 数据轨迹只有在获得此投票合约批准后才会被记录到账本中，这在溯源过程中引入了一个主动的、程序化的治理层。35

3.4 不可变审计的架构启示

对这两个 IEEE/ACM 记录的架构 2 的分析表明，“不可变审计链”的实现并非一个单一的选择。它提供了两种模式之间的明确选择：

云中心模型 (ProvChain)：其中区块链作为中心化云应用的审计层，并设有一个指定的“审计员”。31

分布式治理模型 (SmartProvenance)：其中区块链本身通过执行智能合约和投票机制，成为一个主动的治理层。35

最关键的架构区别在于什么被存储在区块链上，这是整个框架的关键。将整个庞大的知识图谱资产（来自第 2 部分）存储在链上，在技术上既不切实际也不可取。证据清楚地表明，区块链被用来存储溯源信息——追踪“数据记录操作” 22 并锚定“溯源数据记录”。22

这导致了一个关键的架构设计：资产（KG）存在于“链下” (off-chain)，在那里它可以是高性能、可搜索和“可演化”的（如第 5 部分所要求）。而审计追踪（对 KG 的每一次变更的溯源信息）则被“锚定”在“链上” (on-chain)。36 这种混合架构是唯一能够同时满足资产既要可演化（动态）又要可审计（不可变）这对看似矛盾的要求的方法。智能合约的使用（如 SmartProvenance 35 中）进一步将此审计追踪从被动的历史日志提升为一个主动的治理层，以编程方式强制执行哪些对知识资产的更改被授权永久记录。

第 4 部分：高级检索：兼顾精确率与召回率的混合搜索

4.1 混合检索的原则

一旦知识资产被结构化（第 2 部分）并且其审计追踪被保护（第 3 部分），该资产必须是可高效检索的。为解决召回率 (recall) 和精确率 (precision) 之间的竞争需求，需要采用混合检索策略。正如微软等全球科技公司的技术文档所阐述的，混合搜索架构无缝地结合了两种不同的范式：向量搜索（密集检索）和全文本搜索（稀疏检索）。37

稀疏检索 (Sparse Retrieval)：这是传统的基于关键词的搜索，通常使用 TF-IDF 或 BM25 等算法。40 其主要的、不可替代的优势是精确率。它确保包含查询词精确匹配的文档被检索到。这对于特定的技术术语或专有名词（例如产品代码、特定的法律术语）至关重要，因为在这些情况下，语义相关性是无关紧要的。38

密集检索 (Dense Retrieval)：这是一种基于向量的方法，用于捕获语义相似性。它擅长查找与查询概念相关的文档，即使用户的文档和查询没有共享任何关键词。38 它处理用户经常提出的“如何做”和“为什么”的查询。

企业架构需要两者兼备。仅向量搜索在处理精确的技术术语时会失败，而仅关键词搜索在处理概念性查询时也会失败。通过将两者结合，可以利用各自的优势。38

4.2 定量性能分析

学术和技术论文中的定量数据明确支持了增加混合系统复杂性的合理性。这些研究表明，混合方法不是一种妥协，而是一种可证明的更优解决方案。

证据 1：相关性和幻觉减少 41

一项比较研究测量了三种方法的性能：

关键词 (BM25)：显示出最低的相关性（Presisie@5 = 0.55; MRR = 0.52）和高幻觉率 (20.1%)。

向量（密集）：显示出更好的相关性（Presisie@5 = 0.62; MRR = 0.58），但仍有显著的幻觉率 (18.4%)。

混合（使用 RRF 融合）：在相关性上取得了显著增益（Presisie@5 = 0.68; MRR = 0.62），并且最关键的是，将幻觉率大幅降低至仅 11.2%。

证据 2：精确率和召回率 42

另一项比较多种模型的分析显示了对精确率和召回率的影响。

BM25（稀疏）：显示出良好的初始精确率（Presisie@1 = 0.8026），但召回率有限（Herroeping@20 = 0.6960）。

DPR（密集）：单独使用时精确率很差（Presisie@1 = 0.3816），召回率非常低（Herroeping@20 = 0.4037）。

混合（BM25 + DPR）：不仅保持了 BM25 的高精确率（Presisie@1 = 0.8026），而且将召回率显著提高到 0.7740，优于任何单独的组成模型。

来自 IBM Research 等机构的研究证实，在混合系统中结合稀疏和密集嵌入是一种流行且有效的改进方法。43

4.3 技术实现（企业架构）

混合系统的技术关键是融合策略 (fusion strategy)——用于合并两组结果的方法。研究确定倒数排名融合 (Reciprocal Rank Fusion, RRF) 技术是一种高效的融合策略，它导致了 41 中所见的性能提升。

微软为其 Azure Cosmos DB 服务提供的技术文档为这种精确实现提供了具体的企业架构。37

双重索引：系统在同一文档架构内同时存储全文本索引（用于关键词）和向量索引（由 Microsoft Research 开发，用于语义搜索）。37

双重查询：在查询时，计算两个分数：

FullTextScore：使用 BM25 算法计算关键词相关性。37

VectorDistance：计算语义相似度。37

RRF 融合：一个内置的系统函数随后将倒数排名融合 (RRF) 算法应用于这两个分数，以产生一个统一的、融合了“两者优点”的结果排名。37

4.4 混合检索的架构启示

定量证据 41 是决定性的：混合检索策略不仅仅是一个可选的优化；它是在架构上必须的，以同时实现高精确率、高召回率，以及最关键的（对于 AI 应用而言）低幻觉率。

下表综合了支持这一结论的定量数据，根据所引用的学术研究，比较了不同信息检索方法论的性能。

表 1：信息检索方法论的比较性能分析

数据显示，混合方法（以粗体突出显示）在精确率、召回率和幻觉减少等关键指标上均优于其单模态对应方法。这一需求是由企业查询的多样性所驱动的。知识系统必须既能处理精确的技术查询（例如，产品代码，由稀疏搜索处理），也能处理概念性的描述查询（例如，故障排除描述，由密集搜索处理）。38 任何仅使用一种模式的系统，都将不可避免地在处理其中一种基本查询类型时失败。

第 5 部分：交付与演化：带有人-在-回路 (HITL) 机制的安全 RAG

5.1 保护检索增强生成 (RAG)

此知识资产的最终交付机制是一个检索增强生成 (RAG) 系统。RAG 是一种成熟的设计模式，它通过添加一个信息检索步骤（第 4 部分的混合搜索）来扩展语言模型（如 GPT-4）的能力，使模型能够将专有的企业内容纳入其答案构建中。45

然而，对于任何企业部署而言，标准的、开放的 RAG 系统是不够的，并且在本质上是不安全的。来自微软的技术文档强调，企业解决方案的首要要求是将生成式 AI 完全限制在仅使用专有的、经批准的内容。45 此外，系统必须确保每个用户收到的答案仅基于他们被特别授权的文档和数据。47

这就需要一个强大的文档级访问控制 (document-level access control) 架构。48 微软针对 Azure AI Search 的技术文档描述了在 RAG 系统中实现这种细粒度安全性的两种主要架构机制 48：

安全过滤器 (Security Filters)（字符串比较）：在这种方法中，应用程序将用户或组身份作为字符串随查询一起传递。此字符串用于填充查询的过滤器，该过滤器会排除元数据中没有相应字符串的任何文档。这是一种灵活的方法，不受特定 API 版本的限制。48

ACL / RBAC 范围 (预览) (基于身份)：这是一种更强大、原生的方法。查询授权令牌背后的 Microsoft Entra ID 安全主体（用户身份）将直接与存储在文档本身上的权限元数据进行比较。这允许强制执行真正的、细粒度的访问控制列表 (ACL)（例如 Azure Data Lake Storage Gen2 文件上的 ACL）或基于角色的访问控制 (RBAC) 范围（用于 ADLS Gen2 和 Azure blobs）。48

因此，一个安全的 RAG 系统，根据定义，是一个在其核心检索管道中集成了上述细粒度访问控制机制之一的 RAG 系统。

5.2 交付可归因的协作

当交付这个安全的 RAG 系统时，其成功不仅取决于准确性，还取决于可归因性。评估 RAG 系统的技术框架包括“忠实度” (Faithfulness) 等指标——这是衡量生成的答案与检索到的上下文之间事实一致性的标准。49

正是在这里，知识图谱（来自第 2 部分）显示了其全部价值。通过使用 KG-RAG 方法，系统“揭示了推理痕迹” 17，使 AI 的答案能够直接归因于知识库中特定的、可验证的资产。

这种可归因的输出随后成为协作的基础。“人在回路” (Human-in-the-Loop - HITL) 过程被定义为实现 AI 代理与人类领域专家之间协作的机制。50 在此模型中，AI 执行检索和初步综合，而人类专家则提供解释、验证和提炼。51

5.3 演化机制：用于知识资产演化的 HITL

HITL 过程在此架构中最终极的功能不仅仅是一次性验证；它是使知识资产“可演化”的核心机制。HITL 过程是知识资产持续演化和维护的引擎。

学术研究（发表于 arXiv）认为 HITL 角色在 AI 辅助知识图谱构建 (AI-assisted knowledge graph construction) 的背景下至关重要。52 现代数据的数量和复杂性使得纯粹的手动 KG 构建成为不可能，而纯粹的自动方法又经常产生错误和不一致。

"ExtracTable" 框架为这一过程提供了具体的蓝图，这是近期研究中提出的一个 HITL 工作流。54

目标： ExtracTable 专门设计用于协助研究人员将非结构化出版物转换为结构化表示。54

运行：该工作流结合了 LLM 的强大功能（用于自动数据提取）和用户定义的模式（定义目标 KG 结构）。54 它将耗时任务（如文档预处理）的自动化与对提取内容的解释和提炼的强制性人工验证相结合。53

输出：最终的、经人工验证的输出是一组结构化数据，专门设计用于下游直接集成到知识图谱中。52

这个过程创造了一个持续的反馈循环。人类的监督和反馈对于确保 AI 系统与临床或技术指南保持一致至关重要，并允许对底层模型进行持续改进。56

5.4 交付与演化的架构启示

对“可演化资产”和“人在回路”机制的要求，并不是两个独立的要求；它们是一个单一的、集成的工作流。HITL 机制就是演化引擎。ExtracTable 框架 54 为这个闭环系统提供了精确的架构蓝图：

安全 RAG 系统（第 5.1 部分）在混合检索（第 4 部分）和 KG（第 2 部分）的支持下，交付一个可归因的答案。

人类专家（“回路”）验证、纠正或提炼此信息。51

这些新的、经验证的数据（例如，一个新事实、一个修正的关系）通过一个正式的工作流（如 ExtracTable 54）被发送。

这些结构化的、经验证的数据随后被重新集成回中央知识图谱（资产）中。52

通过这个过程，中央知识资产不断演化。在 AI 与人类专家的协作推动下，它随着时间的推移变得更加准确、更全面、更有价值。如下所述，每一次这样的演化都会被不可变的审计链所记录。

第 6 部分：综合：一个可演化知识资产的集成架构

6.1 集成企业架构

本分析中阐述的四大技术支柱——(1) 结构化知识图谱，(2) 不可变区块链审计，(3) 混合检索，以及 (4) 带 HITL 的安全 RAG——并非相互独立或假设性的组件。它们代表了一个新兴的、集成的企业架构蓝图，该架构正被微软和 IBM 等大型科技公司积极部署，以解决复杂的、高价值的问题。18

例如，IBM 将混合 RAG 架构用于利基流程 57，并定义了基于 IBM Blockchain 构建的、用于医疗保健行业的正式架构。60 微软和 IBM 都在其安全平台中使用知识图谱作为基础技术，以关联不同的数据（安全事件、用户行为、威胁情报），用于复杂的威胁分析。58

6.2 集成系统蓝图

通过综合第 1 部分至第 5 部分的证据和技术规范，一个完整的、闭环的架构应运而生。该架构旨在实现最初的目标：将无形的隐性经验转变为有形的、可审计的和可演化的资产。

层级 1：知识资产（知识图谱）

系统的核心。它是一个结构化的知识图谱，其模式由形式化本体定义（第 2 部分）。12

它包含了组织知识的可验证的、显性的表示，这些知识最初是通过 CDM 或 MACTAK 等方法论从专家的隐性经验中获取的（第 1 部分）。6

它充当 RAG 系统的“单一事实来源”。17

层级 2：访问与安全层（安全混合 RAG）

这是所有人机和 AI 与资产交互的主要接口。45

检索：它使用混合检索引擎（第 4 部分）来查询 KG 和相关文档。它结合了稀疏 (BM25) 和密集（向量）搜索，并使用 RRF 进行融合，以确保语义召回率和精确准确性，同时最大限度地减少幻觉。37

安全：它强制执行严格的文档级访问控制（第 5 部分），无论是通过安全过滤器还是原生的 ACLs/RBAC。这确保了 RAG 系统的响应符合特定用户的权限。48

层级 3：治理与审计层（区块链）

这是保障资产完整性的不可变信任层。24

功能：它充当一个登记处或防篡改日志。36 它不存储整个 KG 资产。相反，它存储了对 KG 所做的每一次更改（每个“数据记录操作” 22）的溯源（第 3 部分）的不可变记录。

治理：通过实施智能合约（如 SmartProvenance 模式 35），该层还可以充当主动治理层，以编程方式强制执行（例如，通过“投票合约” 35）哪些来自层级 4 的演化被授权提交给资产（层级 1）。

层级 4：演化引擎（HITL 工作流）

这是使资产得以“演化”的机制，防止其变得静态和过时。

运行：人类专家（“回路”）51 与 RAG 系统（层级 2）的输出进行交互。

集成：他们的反馈、纠正和新补充，通过一个正式的工作流（如 ExtracTable 模型 54）进行处理。此过程将他们验证过的反馈转换为结构化数据。

演化：这些结构化数据被重新集成回知识图谱（层级 1）52，从而丰富和完善资产。

审计：这种集成行为（“演化”）被捕获为一个新的溯源条目，由区块链层（层级 3）永久且不可变地记录下来。

6.3 结论

在此蓝图中集成的四种技术，通过解决彼此的固有弱点，共同创建了一个单一的、强大的系统。

知识图谱（第 2 部分）通过提供显式的、可验证的“推理痕迹” 17，解决了 RAG 的“可归因性”问题。

混合检索（第 4 部分）通过融合关键词和语义搜索，解决了单模式搜索的“精确率/召回率”困境，并减少了幻觉。38

HITL 工作流（第 5 部分）通过创建一个可靠的、经人工验证的机制，实现了持续演化，解决了“静态资产”问题。54

区块链（第 3 部分）通过为 HITL 机制所做的每一次变更提供不可变的、可审计的记录 24，解决了该演化过程的“信任”问题。

这个集成架构完全基于权威的学术（IEEE, ACM）和企业（微软, IBM）技术文档，实现了最终目标：它成功地将无形的“脑内经验”转变为有形的、可验证的、可审计的、可检索的，并能持续演化的组织资产。

Works cited

Information Technology Curricula 2017 - ACM, accessed November 9, 2025,

(PDF) ProvChain: A Blockchain-Based Data Provenance ..., accessed November 9, 2025,

Knowledge Management Toolkit, The Amrit Tiwana Knowledge ..., accessed November 9, 2025,

Knowledge Elicitation: Methods, Tools and Techniques. - Paul Smart, accessed November 9, 2025,

Concept Development for Future Domains: A New Method of Knowledge Elicitation - DTIC, accessed November 9, 2025,

Knowledge acquisition: issues, techniques and methodology ..., accessed November 9, 2025,

KA-CAPTCHA: An opportunity for knowledge acquisition on the web - ResearchGate, accessed November 9, 2025,

Investigating Knowledge Elicitation Automation with Large Language Models, accessed November 9, 2025,

Accelerated Proficiency and Facilitated Retention: Recommendations Based on an Integration of Research and Findings from a Worki - DTIC, accessed November 9, 2025,

Soft Issues of Industry 4.0 - DiVA portal, accessed November 9, 2025,

(PDF) Tacit knowledge elicitation process for industry 4.0 - ResearchGate, accessed November 9, 2025,

Development of domain ontology for a semantic online forum - ResearchGate, accessed November 9, 2025,

Grounding knowledge acquisition with ontology explanation: A case study - ResearchGate, accessed November 9, 2025,

Engineering Asset Management - PDF Free Download - epdf.pub, accessed November 9, 2025,

Engineering Asset Management (Dimitris Kiritsis Etc.) | PDF - Scribd, accessed November 9, 2025,

Large Language Models for Scholarly Ontology Generation: An Extensive Analysis in the Engineering Field - arXiv, accessed November 9, 2025,

Arxiv今日论文| 2025-10-01 - 闲记算法, accessed November 9, 2025,

Future Geospatial Information Ecosystem: From SDI to SoS and on to the Geoverse - UN-GGIM, accessed November 9, 2025,

AFMR: Multicultural Analysis and Empowerment - Microsoft Research, accessed November 9, 2025,

Knowledge Graph Combined with Retrieval-Augmented Generation for Enhancing LMs Reasoning: A Survey, accessed November 9, 2025,

Ontology Matching with Semantic Verification - PMC, accessed November 9, 2025,

obsidian provenance studies: Topics by Science.gov, accessed November 9, 2025,

IEEE SMC 2025 Program | Wednesday October 8, 2025 - PaperCept, accessed November 9, 2025,

(PDF) BLOCKCHAIN FOR CONSTRUCTION SUPPLY CHAINS: A LITERATURE SYNTHESIS - ResearchGate, accessed November 9, 2025,

dAtA provenAnce And blockchAin: An ApproAch in the context of heAlth informAtion systems, accessed November 9, 2025,

Decentralized Credential Status Management: A Paradigm Shift in Digital Trust - arXiv, accessed November 9, 2025,

Blockchain-based Trust Management in Security Credential Management System for Vehicular Network - arXiv, accessed November 9, 2025,

(PDF) Blockchain as a Platform for Secure Inter-Organizational ..., accessed November 9, 2025,

Data Provenance in Healthcare: Approaches, Challenges, and Future Directions - PMC, accessed November 9, 2025,

Blockchain-based digital twin data provenance for predictive asset management in building facilities | Smart and Sustainable Built Environment | Emerald Publishing, accessed November 9, 2025,

Towards a Blockchain-based Architecture for Data Provenance Management in the Internet of Things - ResearchGate, accessed November 9, 2025,

Application of Blockchain Technology in Production Scheduling and Management of Human Resources Competencies - PMC - PubMed Central, accessed November 9, 2025,

Leveraging Artificial Intelligence and Provenance Blockchain Framework to Mitigate Risks in Cloud Manufacturing in Industry 4.0 - MDPI, accessed November 9, 2025,

ID-Based User-Centric Data Usage Auditing Scheme for Distributed Environments - Frontiers, accessed November 9, 2025,

SmartProvenance: A Distributed, Blockchain Based ... - ResearchGate, accessed November 9, 2025,

The Risks of AI and How Blockchain Can Solve Them - Labour Tech, accessed November 9, 2025,

Hybrid Search with Azure Cosmos DB - Microsoft Community Hub, accessed November 9, 2025,

What is retrieval-augmented generation (RAG)? - Microsoft Community Hub, accessed November 9, 2025,

Common retrieval augmented generation (RAG) techniques explained | The Microsoft Cloud Blog, accessed November 9, 2025,

(PDF) Hybrid and Collaborative Passage Reranking - ResearchGate, accessed November 9, 2025,

Evaluating Retrieval-Augmented Generation Variants for Clinical Decision Support: Hallucination Mitigation and Secure On-Premises Deployment - MDPI, accessed November 9, 2025,

HyST: LLM-Powered Hybrid Retrieval over Semi-Structured Tabular Data - arXiv, accessed November 9, 2025,

Retrieval Augmented Generation-Based Incident Resolution Recommendation System for IT Support - arXiv, accessed November 9, 2025,

Dense vector + Sparse vector + Full text search + Tensor reranker = Best retrieval for RAG?, accessed November 9, 2025,

Retrieval Augmented Generation (RAG) in Azure AI Search - Microsoft Learn, accessed November 9, 2025,

Azure AI Search-Retrieval-Augmented Generation, accessed November 9, 2025,

Get started with chat document security filtering - Python on Azure | Microsoft Learn, accessed November 9, 2025,

Document-level access control - Azure AI Search | Microsoft Learn, accessed November 9, 2025,

Accelerated retrieval-augmented generation method based on category matching and partitioned retrieval (CARAG) - SPIE Digital Library, accessed November 9, 2025,

Agentic AI advantage: Unlocking next-level value, accessed November 9, 2025,

Artificial intelligence for geoscience: Progress, challenges, and perspectives - PMC, accessed November 9, 2025,

ExtracTable: Human-in-the-Loop Transformation of Scientific Corpora into Structured Knowledge - arXiv, accessed November 9, 2025,

Human-In-The-Loop Workflow for Neuro- Symbolic Scholarly Knowledge Organization, accessed November 9, 2025,

ExtracTable: Human-in-the-Loop Transformation of Scientific Corpora into Structured Knowledge - arXiv, accessed November 9, 2025,

LLMs4SchemaDiscovery: A Human-in-the-Loop Workflow for Scientific Schema Mining with Large Language Models - arXiv, accessed November 9, 2025,

Proceedings of the Fourth Workshop on NLP for Positive Impact (NLP4PI) - ACL Anthology, accessed November 9, 2025,

Hybrid RAG Architecture: Bridging Structured and Unstructured Data for Smarter AI, accessed November 9, 2025,

Knowledge Graph | Ernest Chiang, accessed November 9, 2025,

Data Management Opportunities in Unifying Large Language Models+Knowledge Graphs - Aalborg Universitets forskningsportal, accessed November 9, 2025,

Blockchain Article Citations - LF Decentralized Trust, accessed November 9, 2025,

From Semantic Web and MAS to Agentic AI: A Unified Narrative of the Web of Agents - arXiv, accessed November 9, 2025,