贡献者 非洲语言实验室

非洲语言占世界语言总量的近三分之一。 然而,在非洲大陆的 2,000 多种语言中,只有 49 种可以在谷歌翻译等翻译平台上使用。 更糟糕的是,高达 88% 的非洲语言在计算语言学中“严重代表性不足”或“完全被忽视”( Joshi 等人,2020 年)。

人工智能(AI)提供了保护代表性不足的语言的机会,但指导和保障至关重要。 如果没有它们,大型语言模型 (LLM) 就有可能强化机构语言并加速其他语言的衰落。 后果是可怕的——全球 40% 的语言面临灭绝的危险,其中数百种语言在非洲使用。 (联合国教科文组织,2022 年)。

非洲语言实验室 (All Lab) 是一个由青年主导的合作组织,致力于通过先进的人工智能和自然语言处理 (NLP) 系统记录、数字化、翻译和增强非洲语言的能力,从而保护非洲语言。 我们与 Smartling 等合作伙伴一起,在解决非洲语言数字鸿沟问题方面取得了实质性进展。 方法如下。

 

非洲对语言文献的需求

语言多样性是非洲大陆最宝贵的财富之一,但也带来了巨大的挑战。 许多人,特别是较小的社区,都讲着没有得到充分记录的独特语言。 这些“低资源”语言缺乏计算使用所需的必要数据集,使得机器翻译 (MT)、语音处理、自动转录和其他 NLP 应用变得困难,甚至不可能。

挑战是普遍存在的——只有不到 5% 的非洲语言拥有重要的数字资源。 (计算语言学协会,2019 年)显然,我们需要更好地记录这些语言,但这个过程并非易事。 非洲语言实验室统计数据

 

记录资源匮乏的非洲语言面临的挑战( Issaka 等人,2024

  • 数据稀缺性: 大多数非洲文化在历史上都非常重视口头传统。 因此,许多主要以口头形式存在,书面记录通常很少或不存在。 如果没有书面语言,收集语料库数据(训练机器学习模型所需的书面和口头语言的集合)就会变得复杂。
  • 政府政策和有限的研究资金: 大多数非洲政府都优先考虑英语和法语等官方语言(通常是殖民统治的残余),而很少为记录、保护和发展土著语言提供机构支持。 由于兴趣不高而导致的学术资金不足也限制了本土语言技术的研究和发展。
  • 早期儿童教育: 一些非洲国家致力于在教育中保留本土语言,但努力往往未能达到预期。 例如,加纳的一项政策规定,从幼儿园到三年级,孩子必须用其第一语言进行教学,然后再过渡到英语。 然而,它将教学限制在 11 种政府支持的语言,导致剩余语言的资源、关注和使用者更加匮乏。 即使有这些政策,由于资源和培训有限,教育工作者仍然经常依赖英语作为主要教学媒介。
  • 缺乏标准化的正字法: 收集许多资源匮乏的非洲语言(如豪萨语和富拉尼语)的数据极具挑战性,因为它们地理分布广泛且方言差异很大。 因此,为这些语言创建统一的数字资源需要仔细、大量的协调和标准化。
  • 数据收集障碍: 在某些地区,某些语言群体的活跃冲突或边缘化对数据收集和语言发展计划产生了不利影响。 此外,许多资源匮乏的语言使用者生活在农村或偏远社区,无法充分使用互联网和数字技术,这使得语言数据收集更加困难。

 

为实现语言平等而创新

在非洲语言实验室,我们使用 AI 和 NLP 系统来数字化、翻译和保存非洲语言,从而为整个非洲大陆的人民创造积极的成果。 我们的四大支柱方法目前支持 40 种语言,从口语班图语到鲜为人知的科伊桑语,代表了整个非洲大陆的不同文化、地区和语系。

 

非洲语言实验室如何支持资源匮乏的语言

  1. 数据收集、提取、清理和存储: 我们从各种来源收集语言数据,通过消除不一致性来整理和标准化数据,并安全地存储以供 AI 模型使用。
  2. 研究和模型开发: 我们开展研究,建立增强非洲语言理解和应用的人工智能模型。
  3. 社区参与和众包: 我们与机构、社区和母语人士合作收集和翻译数据,通过我们创新的人工智能驱动技术确保真实的表现和长期的可持续性。
  4. 技术部署: 通过与行业领袖和学术机构合作,我们使用 AI 和 NLP 系统将我们的数据转换成可用的语言输出,为我们的 All Voices 应用程序和多语言聊天机器人等平台提供支持,这些平台集成在 Base 移动应用程序中。

在教育和数字内容中融入当地语言的国家往往拥有更高的识字率和更强的文化保留率。

让我们的工作成为可能的技术

执行我们的四大支柱需要正确的技术和合作伙伴。 因此,我们与翻译和本地化技术领域的领导者 Smartling 建立了战略合作伙伴关系。 通过此次合作,我们能够利用 Smartling 的尖端工具进行语言翻译、管理和语境准确性,从而改变低资源语言的数字化记录和共享方式。

以下是技术如何推动非洲语言数字化和翻译的进步。

 

编译现有数据:语料库聚合

对于许多非洲语言来说,缺乏集中的语言数据。 我们从各种来源收集和标准化数据,利用 Python 脚本清理、标准化并将数据转换为通用格式,目的是创建一个可广泛使用的集中式语料库。 整合和完善语言数据可确保一致性和可访问性——最终使社区能够创建教育资源、翻译工具和数字内容。

非洲语言实验室已经为 40 种非洲资源匮乏的语言收集了超过 400GB 的语音和文本数据,提高了这些语言的文献记录和数字化可用性。

重新构想众包:众声喧哗

如前所述,不完整的数据是语言保存的一个关键空白,在某些非洲社区中很难填补。 我们创新的数据收集应用程序 All Voices 允许机构、社区和母语人士记录和数字化他们的当地语言。 贡献者可以录制 40 种非洲语言的演讲,支持我们集体捕获低资源语言的数据的需求。

未来,“All Voices”将弥补社区之间的沟通鸿沟,让所有人都能使用当地语言。 它还可以在非洲语言和英语、法语等流行语言之间进行翻译。 通过实现多种语言之间的无缝和准确翻译,All Voices 旨在促进更深层次的文化交流,同时也为不断增长的低资源语言数据集做出贡献。

 

管理数据:从存储到翻译

除了社区可用性之外,语言数据的聚合和组织对于我们在 The All Lab 的工作也至关重要。 Smartling 在我们的整个数据管理过程中发挥着至关重要的作用,从数据收集到存储再到翻译。 通过 Smartling,我们可以在安全的集中式系统中上传、组织和存储来自多个项目的数据。

Smartling 的 API 使我们不仅能够在多个平台上广泛共享数据,而且还能实时更新,确保我们社区的每个成员都能访问最准确、最完整的数字语料库。

我们依靠 Smartling 的翻译记忆库、人工智能翻译和熟练的翻译人员来支持不同非洲语言之间一致且准确的内容。 我们最终建立的结构化和可访问的语言存储库对于扩大非洲语言多样性的数字可访问性和保存工作至关重要。

 

充分利用我们的数据

在上述技术的支持下,我们在 All Lab 的工作生成了结构化的非洲语言数据集,这在数字化低资源语言方面发挥着关键作用。 这些数据集对于开发新的机器翻译、语音识别和语言保存工具有帮助。 最终,我们的数据有助于推动非洲语言研究,并支持开发更准确、更具文化相关性的语言模型。

我们还通过 Huggingface 等开放获取平台提供我们的数据集。 我们的工作促进了以社区为基础的人工智能发展,并鼓励对非洲语言技术的更多投资。

 

取得进展并展望未来

在非洲语言实验室,我们通过数据收集、汇总、标准化、众包以及模型开发和部署,在解决非洲语言数字鸿沟问题方面取得了实质性进展。 我们为不断增长的、强大的语言数据语料库(其大小约为半兆字节)、先进的翻译工具以及成功扩展的语言资源访问权限感到自豪。

迄今为止,我们已经为 40 种非洲低资源语言收集了超过 400GB 的语音和文本数据集,支持这些语言的记录和技术进步。 通过与加州大学洛杉矶分校 MARS 实验室等学术机构以及 Smartling 等行业领袖合作,我们正在利用尖端研究和技术推动我们的使命向前发展。 我们还通过研讨会、会议和技术论文积极提高人们对非洲语言状况的认识。

展望未来,我们将努力保护更多资源匮乏的非洲语言,而不仅仅是目前的 40 种。 我们还致力于扩大我们的数据集和工具的可用性。 而且,我们致力于推动非洲机器翻译、语言保存和人工智能驱动的语言研究的进一步创新。 我们将共同确保非洲的语言遗产不仅能存续,而且能在数字时代蓬勃发展。

立即体验更智能的翻译

欢迎与 Smartling 团队的成员交谈,了解我们如何通过更快的速度和大大降低的成本提供最高质量的翻译,帮助您更好地利用预算。
Cta-Card-Side-Image