特别是如果您已经经历了一段时间的人工翻译过程,您可能会想知道机器翻译(MT)是否能在质量方面产生可比的结果。 让我们来谈谈机器翻译的整体准确性、如何评估机器翻译质量以及机器翻译和机器翻译质量评估的发展方向。

机器翻译的准确率是多少?

由于人工智能方法神经网络的兴起,机器翻译相当准确。 这些网络不是几乎逐字逐句地翻译,而是考虑上下文来产生更准确的翻译。 但它们真的能与人类相媲美吗? 答案通常取决于几个因素:

  • 您的机器翻译软件。 就翻译质量而言,有些机器翻译引擎比其他引擎更可靠,因此选择哪个引擎很重要。
  • 领域。 有些机器翻译系统是通用的,有些则针对特定行业进行训练。 在翻译复杂术语(例如科学或法律内容)时,拥有针对您的领域进行训练的机器翻译引擎可以发挥重要作用。
  • 内容类型。 对于营销活动、标语或口号等内容,机器翻译可能不那么准确。 这些通常需要捕捉品牌的个性或情感,而不是呈现准确的翻译。
  • 语言对。 即使是最好的机器翻译提供商的质量分数也会因语言对的不同而有所差异。 有多种因素可能导致这种情况,包括目标语言和源语言中缺乏等效的单词或短语。

总而言之,机器翻译通常可以帮助您完成大部分翻译工作。 然后,人工翻译可以进行机器翻译后期编辑 (MTPE),以确保准确性并使内容达到可发布状态。

什么是机器翻译质量评估?

MT 质量评估是评估机器翻译文本是否与人工翻译源文本的质量相同的传统方法。 有多种评估指标,包括 BLEU、NIST 和 TER。 它们用于根据机器翻译片段与参考翻译的相似度对其进行评分。

参考翻译是由人工翻译生成的源文本的高质量翻译。 当然,这些参考资料是有帮助的。 然而,它们并不总是可用的——在翻译项目中依赖它们并不理想。 那么,评估质量最有效的方法是什么? 在 Smartling,我们采用两种方法的组合。

第一是每月对八个地方进行第三方多维质量指标 (MQM) 评估。 这些评估是业内评估 HT、MT 和 MTPE 的黄金标准。 为了分配适当的质量分数,MQM 会查看翻译文本中发现的错误类型和严重程度。

其次,我们利用持续的、实时的、自动化的质量评估。 这些测量跨 HT、MT 和 MTPE 的终止距离或翻译错误率。 最终,这两种评估使我们能够提供有保证的翻译质量。

机器翻译评估的重要性是什么?

评估旨在确定翻译是否符合以下标准:

  1. 准确的。 内容应以目标语言忠实地传达原文的信息和情感。
  2. 清除。 信息必须易于理解,任何指示都应该可操作且易于遵循。
  3. 合适的。 例如,某些观众需要一定程度的正式程度。 确保翻译的片段给予观众应有的尊重并且不会疏远或冒犯他们至关重要。

如果翻译的片段在上述任何一个方面存在不足,就需要人工翻译进行后期编辑。

至于机器翻译评估的好处,有几个。 您可以使用它来估算翻译成本和节省的费用并确定对语言学家的适当补偿。 翻译人员还可以一眼看出某个内容需要多少后期编辑工作量。

评估机器翻译质量的两种方法

评估机器翻译有两种选择:

  1. 人工评估:人工翻译会考虑流畅度、充分性以及翻译错误(例如缺失的单词和错误的词序)等因素。 这种方法的缺点是每个语言学家对“质量”的定义可能都是主观的。
  2. 自动评估:这种方法涉及通过算法进行评分。 该算法使用人工参考翻译和 BLEU 和 METEOR 等自动指标来判断质量。 虽然人工评估在句子层面上更准确,但这种方法可以提供鸟瞰视角,并且更具可扩展性和成本效益。

差异:机器翻译质量估计与评估

与质量评估不同,机器翻译质量估计(MTQE)不依赖于人工参考翻译。 它使用机器学习(ML)方法从源段和目标段之间的关联中学习。 这些相关性可为估计提供参考,这些估计可以在单词、短语、句子或文档级别创建。

机器翻译质量评估的用途

在我们的“现实系列”机器翻译质量评估一集中,Smartling 高级数据科学家郑梅给出了以下建议:

“如果您有资源对所有内容进行自动评分,那就这样做吧。 然后,从这些字符串中抽取一些样本供人工评估。 这样,当语言学家看到自动评分时,你就能知道该评分对应的基线。”

根据广泛内容的质量评估来设定这些基线的价值是什么? 当您还能识别出翻译不正确的字符串中的模式时,您就可以快速可靠地判断机器翻译的内容是否可以按原样发布。

影响机器翻译质量评估分数的因素

自动质量评估快速且经济高效。 然而,正如 Smartling 的机器翻译和人工智能解决方案总监 Alex Yanishevsky 所说,“它不会给你像人类一样的洞察力。” 正如 MTQE 网络研讨会所讨论的,出现这种情况的原因有几个。

来源及其质量

有不同的质量评估算法,但大多数没有考虑周围的环境,例如性别。 例如,考虑以下文本:“Dr. 史密斯被指控从一名居民的财产中带走一条灌木蟒蛇,随后在阿瑟顿地方法院被判犯有饲养受保护动物罪。 她随后通过法律程序对法院的判决提出上诉。”

为了准确起见,在西班牙语这样的语言中,“Doctor”需要翻译成女性形式(即“Doctora”)。 然而,大多数机器翻译引擎都没有经过训练来检测这种性别偏见。 如果没有对源语言进行及时的工程设计,输出结果可能会不正确并影响质量分数。

现实系列 - MT 品质
图像描述:机器翻译质量评估的源考虑因素

另一个可能影响质量评估的因素是源文本不够清晰或可能存在多种解释。 梅先生简单地说:“当原文含糊不清,而我们人类又不知道如何解释时,我们不能指望机器翻译比我们做得更好。”

此外,由于 MTQE 模型是在干净的数据集上训练的,因此它们并不总能很好地处理较为混乱的数据。 亵渎的言语就是一个很好的例子。 梅解释说:“当你使用脏话时,[质量评估]模型会给出非常高的惩罚。 他们会告诉你,“嘿,这是一个糟糕的翻译;你不应该发表它。” 当你确实有[亵渎]的用例时,你不能使用这些自动评分机制。”

您的域名或行业

不同的评分算法可能会根据对行业术语的熟悉程度给出不同的估计。 因此,亚历克斯强调,“没有一种评分算法是包罗万象的。” 他继续说道:“为了使算法有效,我们需要该领域或该行业的特定数据。” 正如机器翻译系统可以针对特定行业进行定制以提供更准确的翻译一样,评分算法也可以在特定领域进行训练。

这些特定领域的数据通常至关重要。 亚历克斯解释说:“如果你所在的行业受到监管,比如生命科学、医疗或制药,那么在大多数情况下, 90% 的准确率可能还不够好。 例如,如果逗号的位置不对,而我们要用手术刀,那么这可能就是生死之间的差别。” 金融和法律等其他行业的风险也很高。

目标受众

根据算法对某种语言的质量阈值的理解,估计值也可能有所不同。 梅说道:“正式性,也就是内容的词汇选择和语气,属于你的风格偏好。 但有时这不仅仅是偏好问题。 就好像‘我必须正式传达这一点;否则,我会失去我的客户。’” 因此,人工评估对于质量保证非常有益。

梅继续说道:“西班牙语不只是正式或非正式的,词汇的选择实际上取决于你对交谈对象的尊重程度。 这取决于你与该人的关系——该人的级别是比你高还是比你低。”

机器翻译质量和 MTQE 的未来

机器翻译质量将持续提高,特别是随着越来越多的人使用 GPT-4 等大型语言模型 (LLM) 来补充它。 梅女士表示:“这些法学硕士在对机器翻译进行纠正方面非常强大,例如[确保]性别、形式、风格指南等的准确性。” 但它们确实存在缺点,需要语言学家来弥补。 LLM 幻觉(模型将不准确的信息呈现为事实)就是一个很好的例子。

最终,MT 和 LLM 将使翻译项目更快、更准确地完成。 但语言学家仍将处于主导地位,根据需要做出调整以改进翻译。 亚历克斯也有类似的看法,他预测翻译人员最终可能会承担更多快速工程师的任务。 “他们将开始学习如何以某种方式实际编写提示,以便法学硕士能够纠正输出并将其平滑为他们需要的特定风格 - 无论是性别还是正式程度。”

那么机器翻译质量评估的未来又如何呢? 一个巨大的飞跃将是创建考虑源和目标的算法。 理想情况下,他们能够适当加权分数,以考虑模糊性和主题复杂性等因素。 或者至少,改进标记可能对目标产生负面影响的问题的过程。

但与此同时,您已经可以通过 Smartling 的神经机器翻译中心 访问 最先进的机器翻译引擎 。甚至还有内置的质量评估功能,例如 Smartling Auto-Select。 (自动选择考虑对每个可用机器翻译引擎所做的最新编辑,并确定特定语言环境对的当前最佳提供商。)

更新的 MT 图表
图片说明: Smartling NMT Hub 中集成的 MT 引擎

这种基于质量评估的多 MT 引擎方法的结果是什么? 机器翻译质量提高高达 350%,后期编辑需求减少,这意味着更低的成本和更快的上市时间。

要了解 Smartling 如何帮助您实现这些成果的更多信息,请观看我们的神经机器翻译中心演示。 我们将很乐意解答您的任何问题!

立即体验更智能的翻译

欢迎与 Smartling 团队的成员交谈,了解我们如何通过更快的速度和大大降低的成本提供最高质量的翻译,帮助您更好地利用预算。
Cta-Card-Side-Image