飞书AI信息抽取实战案例:高效技巧全解析

2026-06-06阅读 0热度 0
ai 人工智能

引言

如何用AI做信息抽取-实战案例-飞书

先来说一个大家每天都会遇到的情景:打开手机、电脑,无论是刷社交媒体还是看新闻,海量的文字、图片、音频扑面而来。这些内容背后藏着太多有价值的信息,可问题在于——怎么把这些零散、非结构化的“数据矿”,变成可以被直接利用的结构化知识?这就引出了信息抽取(Information Extraction, IE)这门技术。说白了,信息抽取就是自然语言处理(NLP)里的核心活儿,也是把文本里的“干货”搬到实际应用中的关键一步。

信息抽取概述

信息抽取的目标很明确:从那些没有固定格式的文本里,识别并提取出特定类型的信息。具体来说,它主要涵盖以下几项任务:
1. 命名实体识别(NER):找出文本中的人名、地点、组织、时间等实体。
2. 关系抽取(RE):搞清楚实体之间的关联,比如“A是B的父亲”。
3. 事件抽取(EE):发现文本中发生的事件,以及它和实体之间的关联。

这些听上去挺抽象,但一旦结合具体案例,你就会发现它其实离日常办公很近。

案例:用飞书多维表格的捷径字段,快速批量提取实体

任务1:单次信息提取(智谱清言 https://chatglm.cn/share/FqlM8)

第一个任务很简单——单次提取信息。写提示词时,可以采用“具体任务 + one-shot(参考示例)”的方式。但如果要处理大批量数据呢?当然,你也可以把所有任务一次性塞进大模型的提示词里,比如智谱清言目前的最大输入限制能到2万字符,应付不少场景是够的。不过,这次我们提供一个更聪明的方案:用飞书的多维表格来搞定。

任务2:采用飞书多维表格,对八千条材料信息进行批量要素提取

飞书多维表格里有一个叫“字段捷径”的功能,比如上图中那个“解析结果-V1”字段。只要用内置的信息提取字段捷径,就能实现批量信息提取,省时省力。

当然,这里可能遇到两个坑。一是提取要素不够准确,比如任务1里,同样一个“抗渗等级”,第一次被解析成“耐久性等级”,第二次又变回了“抗渗等级”;再比如“商品混凝土”,要求解析成“供应方式:预拌”,结果可能不符合实际业务需求。二是任务2中,解析出来的属性与属性值跟实际业务对不上。那么,该怎么改进呢?来看看任务3的做法。

任务3:要素提取、自定义提取要求,提供更多正、负case

这个案例聚焦在提取“普通混凝土”这类材料的信息上,需要提取的属性包括:品类、强度等级、抗渗等级、外加剂类型、是否泵送,一共五个字段。

以下是调整后的提示词:

##提取信息
"品类"
"强度等级"
"抗渗等级"
"外加剂类型"
"是否泵送"

##输入参考示例
从“混凝土 混凝土强度等级:C10混凝土类型:混凝土外加剂:无材质:现浇混凝土C20”
提取"品类""强度等级""抗渗等级""外加剂类型""是否泵送"
输出:
"品类:普通混凝土
强度等级:C10
抗渗等级:null
外加剂类型:null
是否泵送:null"

##自定义提取要求
##输出格式
品类:xx
强度等级:xx
抗渗等级:xx
外加剂类型:xx
是否泵送:xx

##以下为材料描述中部分关键词的同义词说明
抗渗等级,S=P=W,实例:S4=P4
外加剂类型,膨胀剂=膨胀=膨胀型
是否泵送,非泵送=自卸=自卸车=斗车

##限制
1、必须按照输出格式要求输出
2、每类提取的信息的要素值只能从属性对于的属性值列表中查找:
品类的属性值包含“普通混凝土”、“特种混凝土”、“防冻混凝土”
强度等级的属性值包含“C7.5”、“C10”、“C15”、“C20”、“C25”、“C30”、“C35”、“C40”、“C45”、“C50”、“C55”、“C60”、“C70”、“C80”、“C85”、“C90”、“C95”、“C100”、“C130”
抗渗等级的属性只包含"P4"、"P6"、"P8"、"P10"、"P12"、"P14"、"P16"
外加剂类型的属性值包含"微膨胀"、"膨胀"、"防冻"、"早强"、"缓凝"、"减水"、"抗渗"、"增塑"
是否泵送的属性值包含“泵送”、“非泵送”

3、没要相应属性值的,输出:null
比如是否泵送,信息提取时没有对应属性与属性值,则输出,是否泵送:null

实际跑了100条数据进行验证,判断后准确率达到了100%。这就是正、负case和自定义规则的价值所在。

当然,信息抽取的应用远不止建材领域。看看这些场景:

  • 在医疗领域,它能从临床文档中抽取病人的关键信息,辅助医生做出更精准的诊断。

  • 在金融领域,通过抽取新闻或社交媒体的关键信息,模型能更准确地预测股价走向。

  • 在法律领域,它帮律师从海量文档中找出核心证据,无论是构建还是反驳案件,效率都大幅提升。

说到底,信息抽取的价值,就是帮我们从“数据多”变成“数据值”。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策