时间:26-04-22
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
耶路撒冷希伯来大学计算机科学与工程学院联合该校法学院及艾伦人工智能研究所的研究成果,已于2026年4月10日以预印本形式发布,论文编号为arXiv:2604.09237。读者可通过该编号在arXiv平台查阅全文。
学者在启动一项实证研究时,往往面临一项耗时且繁琐的基础工作:从非结构化文本中手动提取并整理结构化数据。例如,一位法学研究者试图探究:由不同美国总统任命的联邦法官,在审理移民禁令案件时是否表现出系统性差异?这是一个有价值的实证问题,但解答它需要先完成海量的数据准备工作——收集数百份司法判决文书,人工设计一套“编码表”(即注释框架),确定需要捕获的变量(如任命总统、判决结果、法官背景等),再组织人力逐份阅读文书并录入数据。这个过程通常持续数月甚至数年,且极易引入人为误差。
这种“先定义模式,后人工填充”的流程,普遍存在于法学、计算生物学、社会科学等依赖文献回顾的领域。研究人员面对文本的海洋,却只能使用低效的“手工作业”方式。更关键的是,编码表的设计深度依赖于研究者个人的领域知识和文献熟悉度——若遗漏某个潜在的重要变量,其影响将直接固化在最终的数据集中,削弱分析结论的效度。
针对这一核心痛点,耶路撒冷的研究团队开发了ScheMatiQ框架。该系统的核心逻辑可概括为:研究者仅需提供明确的研究问题与相关文献集,系统便能自动推导出合适的数据提取模式,并从文本中抽取出对应的结构化信息,最终生成一个可供分析的数据集。
理解ScheMatiQ的最佳方式是追踪其完整的工作流程。假设你仍是那位研究移民禁令案件的法学教授,手握89份相关判决书。
ScheMatiQ在接收你的研究问题与文档后,会按序执行三个核心任务。
首要任务是界定“研究问题的分析单元”。研究问题总是关于某个特定实体的。在上述例子中,分析单元是“法官”;若问题变为“法院层级是否影响案件结果?”,则分析单元变为“案件”本身。ScheMatiQ通过解析研究问题描述并结合对示例文档的阅读,利用AI模型自动识别并定义这个“分析单元”。输出结果包括单元名称(如“Judge”)、描述(如“在该法律文件中做出裁决的个体法官”)及实例示例(如“Ruth Bader Ginsburg”、“Antonin Scalia”)。
明确分析单元后,第二步是“模式发现”,即设计数据表的列(字段)。系统会批量处理文档,并不断向AI模型提问:“基于当前这批文档,是否存在对回答研究问题有价值、但尚未被记录的信息维度?”若存在,则将其作为新字段加入模式;若无,则继续处理后续批次,直至遍历所有文档或不再有新字段涌现。此过程模拟了资深研究助理在阅读文献时,动态完善其数据提取清单的行为。
第三步是“结构化数据提取”,即依据最终确定的模式为每份文档填充数据。系统首先识别文档中提及的所有分析单元实例(例如,本判决书中涉及了哪几位法官),然后针对每个实例,尝试一次性提取所有已定义字段的信息。对于未能成功提取的字段,系统会进行针对性更强的二次提取。所有提取出的数据均附带“证据”——即支撑该数据的原文片段,研究者可随时点击查验,确保数据的可追溯性与可验证性。
ScheMatiQ秉持一个关键的设计哲学:研究者不应被自动化流程架空。系统在每个关键节点都为研究者保留了审查、修正与否决的权力。
在分析单元识别阶段,若系统判断有误(如将“法官”误判为“案件”),研究者可直接在交互界面上修改或手动指定。在模式发现阶段,研究者可以增删字段、修改字段定义或合并相似字段。若后续获得新文献,可将其导入系统,在现有模式基础上探索是否有新增字段的必要。在数据提取阶段,研究者可审核并修改任一单元格的数值,确保最终数据集的准确性。
这种“AI提议,人类裁决”的协作机制,被称为“人在回路”。其核心优势在于结合了AI的大规模信息处理能力与人类专家的领域知识判断。AI能够快速扫描全文,发现人类可能忽略的潜在变量;而研究者则负责评估这些变量的学术相关性,并剔除噪声。二者协同,方能产出既全面又严谨的研究数据集。
系统提供的可视化操作界面,清晰地展示了分析单元的识别结果、字段列表的定义及其依据,以及初步提取的数据表格。研究者可直观地进行全流程干预,确保了过程的透明度与可控性。
研究团队选取了两个差异显著的领域来验证ScheMatiQ的实用性,它们代表了不同的挑战类型。
第一个是法学领域。团队使用了学者Klerman于2025年发布的一个研究数据集,包含89份美国移民禁令案件判决书。研究目标是分析法官的任命总统与其判决倾向之间的关联。该领域的挑战在于法律文书篇幅长、逻辑结构复杂,关键信息常嵌入于详尽的论证说理中。人工标注时,Klerman团队记录了“法官姓名”、“任命总统”和“判决结果”三个核心字段。
第二个是计算生物学领域。团队使用了一个包含96篇关于蛋白质核输出信号(NES)学术论文的数据集。研究目标是判断给定蛋白质序列是否包含NES,并评估其信号强度与置信度。此领域的挑战在于需要从高度专业化的科学文献中精确提取定量数据、实验参数和复杂的生物学细节。
评估在两个领域均采用相同的框架:将ScheMatiQ自动生成的模式与人工精心设计的“黄金标准”模式进行对比。首先比较两者字段的重合度,再由领域专家对ScheMatiQ独有字段的学术价值进行评分。
实验结果揭示了一个有趣的现象。在法学领域,系统生成的字段集与人工标注的字段集存在大量重叠,但也各有独有部分。具体而言,ScheMatiQ成功覆盖了人工模式中绝大多数字段(仅有两个较为宽泛的“其他”类字段未被纳入),同时其自身发现了占总数31%的新字段。在计算生物学领域,这一比例为32%。
这些新字段的价值由领域专家进行盲评打分(1-5分)。法学领域的新字段平均得分为3.6分,计算生物学领域的新字段平均得分高达4.2分。这意味着超过70%的系统独有字段被专家认为具有实际研究价值。例如,在法学领域,系统发现了“判决的法律推理依据”、“禁令适用的具体范围”等维度;在计算生物学领域,则补充了“NES序列突变描述”、“信号调控机制”等更精细的变量。
这指向一个关键结论:人工设计编码表时,受限于时间与认知范围,往往只捕获了最显性的信息维度。而ScheMatiQ通过对全文进行无差别扫描,能够挖掘出那些分散在文本各处、不易被察觉但具有潜在分析价值的“隐性”变量。
为厘清高质量字段发现的驱动因素,团队进行了一项对照实验。他们测试了三种输入条件:仅提供研究问题、仅提供文档、同时提供研究问题与文档。
结果显示,仅凭研究问题,系统生成的字段倾向于高度抽象和通用(如“法官姓名”、“蛋白质ID”),缺乏具体语境下的操作化定义。仅凭文档,系统能识别出文本中存在的具体信息点,但这些信息点可能与核心研究问题关联度不高,产生大量无关字段。只有当研究问题与文档同时提供时,系统才能生成既具体又高度相关的研究变量,例如“移民政策背景”或“突变功能影响”。
值得注意的是,三种条件下产生的字段集合重叠度极低。这证明,真正有价值、能直接服务于特定研究问题的字段,并非单纯从问题或文档中独立推导而来,而是二者信息融合后“涌现”的结果。
除了模式设计,团队也评估了系统在“识别分析单元实例”方面的表现,即:在单篇文档中准确找出所有目标实体的能力。
在计算生物学领域,系统成功识别出了87%的蛋白质实体;在法学领域,法官实体的识别率为74%。两个领域的识别精确率均接近100%,意味着系统极少误判(将非目标实体识别为目标实体)。
主要的错误类型是“漏识别”,且绝大多数发生在“高密度实体”文档中——即单篇文档内提及大量不同目标实体的情况。当文档仅涉及单个或少数实体时,系统识别率接近完美。这表明,处理高密度实体文档是当前算法需要优化的重点方向。
ScheMatiQ采用三层技术架构。前端是一个基于React和TypeScript构建的交互式Web应用,研究者可通过浏览器完成所有操作,无需编程。后端由FastAPI框架构建,负责核心计算任务,并通过WebSocket向前端实时推送进度。核心处理逻辑则封装在一个独立的Python库中,包含分析单元发现、模式发现与数据提取三大模块。
在AI模型选用上,实验使用了Google的Gemini-2.5系列模型。其中,模式发现与分析单元发现任务使用Gemini-2.5-flash,数据提取任务使用计算成本更低的Gemini-2.5-flash-lite。在两个领域的完整实验(共185份文档)中,总计算成本约为每百份文档1美元,对学术研究而言是可承受的。
系统支持灵活性。研究者可通过配置API密钥,使用Together.ai平台支持的其他模型。若出于数据隐私考虑,也可通过HuggingFace Transformers库在本地部署开源模型。该系统已完全开源,研究者可直接访问其网站(www.ScheMatiQ-ai.com)在线使用或部署本地版本。
论文对两个潜在问题进行了说明。首先是可复现性:由于依赖闭源商业API,即使在参数固定的情况下,不同运行批次的结果也可能存在微小差异,这可能是模型内部随机性或服务商模型更新所致。使用本地部署的开源模型可缓解此问题。其次是数据隐私:系统默认不会存储用户上传的任何文件或提问内容。仅在用户明确选择“同意为研究目的留存数据”时,相关数据才会被匿名化记录。这对处理敏感或机密资料的研究者尤为重要。
本质上,ScheMatiQ扮演了一个“初级研究助理”的角色。它高效处理研究者无力独自完成的、机械性的文献初筛与数据提取工作,产出结构化的数据初稿。研究者则在此基础上,运用其专业判断进行审核、修正与深化。这种协同模式,对于任何需要从大量文本中提取结构化信息的研究场景(如社会调查分析、历史档案整理、临床病历研究)都具有普适价值。
当然,ScheMatiQ并非万能。其在处理高密度实体文档时的识别遗漏问题有待改进。同时,对商业API的依赖也带来了结果稳定性的挑战。然而,实验证明,它能够在复现人工标注主要字段的同时,发现大量专家认可的新变量,这显著提升了研究数据构建的广度与效率。
这项研究反映了一个更广泛的趋势:AI工具正以更具体、更深入的方式嵌入学术工作流。其目标并非取代研究者的专业判断,而是接管其中重复性高、规模大、易出错的部分,从而让研究者能将精力聚焦于更高层次的假设提出、分析与解释。这种由AI辅助生成、由人类专家最终校准的数据集,或将成为未来实证研究的新起点。对技术细节与实验方法感兴趣的读者,可通过论文编号arXiv:2604.09237获取完整原文。
ScheMatiQ是一个AI驱动的学术研究辅助工具。其主要功能是:接收一个自然语言描述的研究问题及一批相关文献,自动识别核心分析对象、设计数据提取框架、并从文献中抽取出对应信息,生成一个带原文证据引用的结构化数据库。整个过程允许研究者全程介入并修改。
现有许多AI工具侧重于文献检索与文本摘要,其输出仍是叙述性文字,难以直接用于量化统计,且信息溯源困难。ScheMatiQ的核心输出是可直接导入统计软件进行分析的结构化表格,且每个数据点都链接至原文依据。它更强调研究者的控制与协作,而非提供一个不可更改的结论。
根据论文中的测算,处理100份文档的计算成本大约为1美元。对于涉及数百份文档的典型研究项目,总成本处于同一量级。系统本身为开源软件,研究者也可选择成本更低的开源模型进行部署,进一步控制费用。