光语大模型专业测评：灰盒可信技术如何赋能千行百业

2026-05-16阅读 0热度 0

在2024世界人工智能大会（WAIC）上，可信大模型公司无限光年（INF）正式发布了其光语大模型及技术报告。该模型的核心创新在于融合了大语言模型与符号推理能力，旨在从技术底层缓解生成式AI的“幻觉”问题。这一突破显著提升了模型的可信度，使其在金融风控、医疗诊断等对精确性有严苛要求的垂直领域具备了应用潜力，有望将生成式AI转化为可靠的生产力工具。

评测数据显示，在金融与医疗领域的专项测试中，这款百亿参数规模的垂直模型，其表现超越了OpenAI的万亿参数模型GPT-4 Turbo。这意味着模型在实现更高专业推理精度的同时，也因其相对精简的规模而具备了更优的部署成本效益。通过攻克“幻觉”这一企业级应用的核心瓶颈，无限光年已与多个行业的头部机构展开深度合作。

从“黑盒”与“白盒”到“灰盒”：一条独特的可信之路

在大会的“人工智能：科研范式变革与产业发展”论坛上，无限光年联合创始人徐盈辉博士指出，幻觉问题是阻碍大模型成为核心生产力工具的关键。当模型的生成过程不可控、逻辑难以追溯时，便无法满足专业场景对准确性、可靠性与严谨性的要求。

针对这一挑战，无限光年的技术路径聚焦于神经符号计算等前沿方向，并以此构建新一代可信大模型。徐盈辉博士阐释，人工智能领域长期存在符号主义与连接主义两种范式。神经符号技术的价值，在于将符号学派的逻辑推理能力与连接学派的数据学习能力深度融合，从而系统性提升生成式AI在行业应用中的可信生成能力，降低事实性错误。

这类似于诺贝尔经济学奖得主丹尼尔·卡尼曼提出的“快与慢”双系统思维理论。大模型与符号计算的结合，相当于同时具备了快速的、直觉式的“黑盒”概率预测，以及缓慢的、可解释的“白盒”逻辑推理。两者的协同，代表了通向未来通用人工智能（AGI）的一个重要技术方向，也是无限光年所坚持的“灰盒”可信路线。

无限光年致力发展的，正是这种能够解决垂直领域复杂专业问题的“灰盒”大模型。

垂直领域性能超越：金融与医疗的实测表现

在金融领域，无限光年选择了极具挑战性的特许金融分析师（CFA）考试作为评测基准。基于CFA数据集的测试显示，其金融大模型在一级和二级考试中的准确率均超越了GPT-4 Turbo和Llama3。具体数据为：一级考试准确率0.7772（GPT-4 Turbo为0.7177），二级考试准确率0.5518（GPT-4 Turbo为0.5259）。

此外，在公开金融评测数据集FinanceIQ和Fin-Eval上，该模型的表现也全面领先。徐盈辉博士同时宣布，将开放光语金融大模型的API试用，以促进大模型在金融行业的深度应用。

逻辑推理能力是检验模型可靠性的另一关键。在ProofWriter、FOLIO、ProntoQA和MedExam Grading这四个权威逻辑推理数据集上，光语大模型的准确率同样全面超过GPT-4 Turbo，展现出强大的符号推理与逻辑一致性。

医疗领域的成果更为显著。无限光年医疗大模型在权威医疗评测基准MedBench上，实现了API榜和自测榜的“双榜第一”，并且是首个在两个榜单上综合得分均突破90分的医疗大模型，其中API榜综合得分达到90.4分。

从技术到场景：可信模型驱动产业应用落地

基于可信大模型技术，无限光年已在产业应用层面取得多项实质性进展。

在金融领域，公司与头部证券公司合作推出了AI投研助手。该产品借助新一代可信技术，在国内率先实现了运用大模型对企业财报进行精准、深度的自动化解读，为分析师提供了信息总结、范式化写作与精准搜索等一站式功能，目前已被多家证券及资管机构采用。

在医疗领域，无限光年与国内顶尖三甲医院合作，基于可信技术共同打造医疗行业大模型。该模型在体检报告解读等场景中，能有效辅助医生提升报告撰写效率与诊断准确性。

徐盈辉博士分享了他的观察：在经历了早期的“百模大战”后，行业应用的深度落地已成为发展重心。然而，当深入到高度专业化的场景时，通用大模型的表现往往难以满足需求。因此，无限光年团队将持续探索新一代可信的“灰盒”大模型技术，目标是让垂直领域模型变得更精准、更可信，使其能够胜任“金融顾问”、“专业医生”等角色，最终推动AI技术实现人人可用、行行受益。

无限光年团队汇聚了来自阿里巴巴、蚂蚁集团、字节跳动、微软等公司的顶尖AI人才，以及来自摩根大通等金融机构、协和医院等医疗机构的资深行业专家。这种“技术+行业”的复合背景，使其能更精准地理解行业需求，开发AI原生的产品与解决方案，推动“灰盒大模型”及生成式AI技术在行业场景中持续落地。公司此前已完成多轮融资，投资方包括阿里云、启明创投等头部机构。

光语大模型专业测评：灰盒可信技术如何赋能千行百业

从“黑盒”与“白盒”到“灰盒”：一条独特的可信之路

垂直领域性能超越：金融与医疗的实测表现

从技术到场景：可信模型驱动产业应用落地

相关阅读

最新教程

最新资讯