毛利语语音合成精选:本土模型守护语言主权的权威测评

2026-05-25阅读 0热度 0
科技巨头

提到新西兰,人们首先想到的往往是壮丽的自然风光。然而,这片土地的语言生态同样独特而充满韧性。在新西兰的三种官方语言中,毛利语(te reo Māori)是唯一的本土原住民语言。一个值得注意的现象是:虽然能流利使用毛利语的人口仅占约4.3%,但国家统计局数据显示,近30%的新西兰人能够说出超过几个单词或短语的毛利语。

毛利语文字转语音模型:拒绝科技巨头主导,守护语言主权

如今,当你让ChatGPT生成毛利语文本时,它能以学校教学和国家电视台使用的标准毛利语流畅回应。Claude和Perplexity等模型也具备类似能力。这些令人惊叹的语言表现,其根基是毛利社区和学术机构多年来产出的文字与音频素材——但这些资源往往在未经授权的情况下被爬取,在海外进行处理,最终通过大型科技公司的平台呈现给用户。对于毛利社群而言,这远非一个技术问题,而是一个关乎文化主权与知识传承的核心议题。

“海外公司拥有开发强大AI模型的资源,”怀卡托大学副教授、该校人工智能研究所联合所长Te Taka Keegan指出,“但他们未经我们同意就抓取了所有数据,而我们对输出结果没有任何所有权。我们的语言是知识传承最重要的载体……然而,我们却目睹着在奥特亚罗瓦(新西兰)之外开发的技术,对这些知识的传播掌握着越来越大的控制权。”

正是出于对Keegan所称的“数字主权系统”的迫切需求,他与当时还是硕士研究生的Kingsley Eng共同启动了一个项目:开发一套高保真的毛利语方言合成语音系统,即文字转语音模型。整个开发过程,每一个技术决策都围绕着一个在AI领域常被忽视的核心原则展开:这套合成语音系统及其所有组成部分,必须始终归属于使用该方言的社群。他们的目标,是为全球其他少数语言社区提供一个可复制的范本。

毛利语的独特语音挑战

主流AI语音模型的训练大多以英语为中心,将其直接套用于其他语言时,往往会出现“水土不服”的情况。毛利语拥有一些独特的语言学特征,例如元音时长的辨义作用,这给AI语音合成带来了额外挑战。

举个例子,“keke”(蛋糕)、“kēkē”(腋窝)和“kekē”(嘎吱作响)这三个词,意思截然不同,区别仅在于元音发音的长短。此外,毛利语中常见的复合字母(两个字母组合发一个音)其发音规则也与英语不同——比如“wh”通常发“f”的音。在毛利语中,发音的细微偏差直接意味着词义的改变。

更重要的是,与英语或中文相比,毛利语被视为一种“低资源语言”,可用的数字化文本、数据集或录音材料相对匮乏。为了解决数据难题,Keegan邀请了翻译、教育工作者兼语言导师Ngaringi Katipa,以完全知情同意的方式,为系统提供了真实的人声录音。

“我们专注于Waikato-Maniapoto本地方言,因为语言的精髓和美感往往就蕴藏在方言之中。方言将语言与特定的土地、身份紧密相连。”Keegan解释道。

“我们最初录制了Ngaringi朗读书籍段落的内容,获得了4.5小时的数据,”现任精密工具制造商Extec机器学习工程师的Eng介绍道,“之后,我们根据Te Taka的兄弟Peter——一位毛利语言学专家——提供的详细词句列表,进一步扩充了数据集,其中包含了许多非常罕见的词汇。”经过数据清洗和处理,团队最终积累了7小时45分钟的高质量录音素材。

技术路径的选择与优化

构建文字转语音系统,通常有两种数据输入思路:一是基于字符,将原始字母直接输入模型;二是基于音素,在训练前先将文本转换为音标,明确描述每个词的发音方式。

“两种方法我们都尝试了,但音素方法明显胜出,”Eng说,“预先向模型提供音素规则,相当于给了它一个‘先发优势’。”音素能有效告诉模型特定字母组合该如何发音,“从而帮它省去一部分自学过程”。为了生成这些音素规则,研究人员使用了一款名为eSpeak-NG的开源工具,该工具内置了毛利语规则的测试版本,团队在此基础上进行了针对性调整。

Eng测试了三种开源神经网络架构——Matcha-TTS、Tacotron2和Piper——用于训练并将录音转化为合成语音。最终,支持本地离线运行的Piper表现最佳,被选为构建成品的基础。

尽管所使用的优质录音不足8小时,远低于训练文字转语音模型通常建议的数百小时数据量,但最终生成的AI语音质量却令人惊喜。该领域的主要评估指标是词错误率,数值越低,准确率越高。Keegan和Eng开发的AI语音词错误率达到6.78%,按当前行业标准被评为“良好”。

在整个开发周期中,一位专业的毛利语语言评估师持续对合成语音的自然度、发音准确性和表达力进行评判。

研究团队还邀请了68位毛利语流利使用者参与测试,请他们分辨哪段录音是真人,哪段是AI合成。结果显示,听众的正确识别率仅为65%。“我们对这个结果感到满意,因为部分听众是说话者本人的家庭成员——他们对她的声音再熟悉不过,但仍有好几位判断错了。”Keegan说道。

所有权的归属:超越知识产权

谷歌曾为怀卡托团队提供过部分资金支持,但Keegan强调,这笔资助没有任何附加条件,也未主张任何所有权。“他们表示,听说了我们在语言保护方面的工作,希望提供支持,并让我们按自己认为合适的方式使用经费。”他说,这笔资金最终确保了能够向Katipa支付公平的报酬。

随着工具开发完成,所有权问题成为Keegan最核心的关切。从标准知识产权角度看,这套语音的版权可能属于Katipa本人;但从毛利文化的世界观出发,Keegan认为它属于整个社群:“这是通过她的祖先一代代传承下来的宝贵财富,她的职责是为子孙后代守护这份遗产。”

因此,Keegan没有选择公开发布这个语音模型,而是正在与Katipa所属的三个伊维(部落)——怀卡托、马尼亚波托和劳卡瓦——进行协商。“这套系统的守护权应该归属于他们,”Keegan明确表示,“而不是大学。”为此,他联系了总部位于惠灵顿的Catalyst IT公司,该公司慷慨地提供了一年的网站托管服务以及运行语音模型所需的计算资源。

全球原住民语言AI的实践与启示

数据主权正成为全球原住民AI社区日益关注的焦点。新西兰北部的毛利媒体机构Te Hiku Media开发了一套自动语音识别系统,对纯毛利语语音的识别准确率达到92%,双语语音识别准确率也有82%。该机构以“Kaitiakitanga”(守护者责任)许可证的形式发布了这一模型——这是一份具有法律效力的文件,规定相关数据只能用于造福毛利人。

放眼世界,巴塞罗那超级计算中心的Aina项目发布了Matxa,这是一套基于开源架构构建的多方言加泰罗尼亚语文字转语音系统。在加拿大魁北克,由Michael Running Wolf主导的“第一语言AI现实”(FLAIR)项目,正致力于为北美原住民语言构建语音识别模型。

语音驱动技术——无论是虚拟助手、屏幕阅读器、导航系统还是智能设备——已经无处不在。对Keegan而言,这些工具既可能成为“净化并殖民我们语言”的手段,也可能转化为“让我的孙辈获得传统知识赋能”的途径。他认为,两者的区别,关键在于谁来开发和最终拥有这项技术。“我希望我的子孙后代能够通过我们自己的系统获取我们的知识。这套语音系统,正是迈向那个目标的第一步。”

从长远看,他的目标是运用相同的开源、社区所有制方法论,来构建完整的语言模型。“那不会是一个笼统的‘毛利语’大语言模型,”他描绘着蓝图,“而会是一个‘马尼亚波托’大语言模型、一个‘图霍埃’大语言模型,等等。”每个模型都将归属于它所代表的语言社群,并完全基于该社群的语音数据进行训练。

尽管这在工程上比文字转语音系统更具挑战,但怀卡托的项目已经证明,所需的基础构件已然齐备:在有限数据上的高效训练、基于音素的输入方式、开源工具,以及社区所有制的法律与治理框架。“我们已经搭建了一套模板,让全国其他伊维都能照此实施,”Keegan总结道,“我很乐意为他们提供帮助。”

问答摘要

Q1:毛利语文字转语音系统在技术上面临哪些主要挑战?

A:主要挑战有两方面。一是资源层面:毛利语属于低资源语言,可用的数字化训练数据较少。二是语言本身:毛利语具有独特的语言学特征,例如元音时长的差异会直接改变词义(如“keke”、“kēkē”、“kekē”三词仅靠元音长短区分),且复合字母的发音规则与英语不同。这些特点使得主要基于英语开发的AI语音模型在适配毛利语时容易出错。

Q2:怀卡托大学的毛利语语音模型用了多少训练数据,效果如何?

A:研究团队最终使用了约7小时45分钟的高质量录音数据,远低于行业通常建议的数百小时数据量。尽管如此,最终模型的词错误率达到了6.78%,属于行业“良好”水平。在一项由68位流利使用者参与的真人/AI语音辨别测试中,听众的正确识别率仅为65%,这表明合成语音已具备很高的自然度和迷惑性。

Q3:这套毛利语语音模型归谁所有,会公开发布吗?

A:该模型不会进行公开发布。从毛利文化的视角来看,这套语音被视为社群共有的文化遗产。项目主导者Te Taka Keegan正与录音贡献者Ngaringi Katipa所属的三个毛利部落(怀卡托、马尼亚波托和劳卡瓦)协商,计划将模型的守护权正式移交给这些社区,而非由大学或商业机构持有。

免责声明

本网站新闻资讯均来自公开渠道,力求准确但不保证绝对无误,内容观点仅代表作者本人,与本站无关。若涉及侵权,请联系我们处理。本站保留对声明的修改权,最终解释权归本站所有。

相关阅读

更多
欢迎回来 登录或注册后,可保存提示词和历史记录
登录后可同步收藏、历史记录和常用模板
注册即表示同意服务条款与隐私政策