通过 MQM(多维质量指标)方法论深入了解翻译质量评估和保证的神话和现实。 MQM 是一个旨在评估和监控翻译内容质量的综合系统。 MQM 是一个标准化的语言质量保证 (LQA) 框架,用于评估各个类别的翻译质量。 根据 MQM 框架评估翻译有助于确定本地化过程中的优势和改进机会。
在这次炉边谈话中,我们探讨了常见的错误以及为确保一流的语言质量而采用的最佳做法。 了解 MQM 方法如何帮助本地化经理和语言学家最大限度地减少错误、消除主观性并提高翻译成果。
本次会议的专家有:
- 奥尔加·贝雷戈瓦娅|人工智能和机器翻译副总裁
- Valerie Dehant | 语言服务高级总监
- Alex Yanishevsky | 人工智能和机器翻译部署总监
翻译质量:了解 MQM 方法
翻译行业和其他行业一样,依靠质量而发展。 但如何评价翻译的质量? Smartling“现实系列”第七集提供了有关翻译质量的宝贵见解。 机器翻译(MT)、人工翻译(HT)和 MQM(多维质量指标)框架等重要方面可用于阐明这一复杂问题。
误解:母语人士可以评估质量演讲者首先揭穿了任何母语人士都可以评估翻译质量这一根深蒂固的误解。 “翻译质量”的衡量确实要复杂得多。 事实上,质量评估非常主观,需要敏锐地理解源语言和目标语言的背景和细微差别。
MQM 框架会议的主要主题是 MQM(多维质量指标)框架的介绍。 该模型摆脱了传统的充分性和流畅性评估,提供了一种更客观的翻译质量评估方法。 它确实考虑了充分性、流畅性和可操作性等因素,同时也鼓励盲目评估。 发言者强调了 MQM 中盲评的重要性,在这种模式下,评估人员不知道翻译是由人还是机器进行的。 他们强调了这项技术在消除评估偏见方面的重要作用。
MQM 与传统方法有何不同? Olga Beregovaya 表示,这一切都是关于“翻译错误”的分类和量化。 在 MQM 模型中,错误被分类,并分配严重程度权重来计算总体质量得分。 这种方法使我们能够量化翻译质量的概念,将其转化为可用于改进的数值。
发言者谈到了其他相关的行业评估指标,如BLEU、TER和使用大型语言模型(LLM)进行质量评估。 这些工具与正在进行的 LLM 质量评估和语义评估实验相结合,极大地增强了我们对引擎行为的理解。
Olga Beregovaya 揭示了文本评分和语义评分之间的差异。 文本评分主要考虑做出改变所需的字符或单词的差异,而语义评分则研究句子中单词和概念之间的关联。 她还强调了人类参与在识别评分统计异常值和例外方面的重要性。
Alex Yanishevsky 在部署大型语言模型 (LLM) 的背景下提出了数据质量问题。 他断言高质量的数据是根本,并强调当模型与实际含义存在很大偏差时,需要捕捉幻觉。
仲裁和 KPI Valérie Dehant 强调了仲裁在解决语言学家之间的分歧和实现错误一致标记方面的作用。 她强调了 MQM 方法在错误类别标签冲突损害模型学习的情况下促进仲裁的关键作用。 MQM 独特的仲裁功能可以明确区分错误,从而实现无缝的模型训练过程。
Alex Yanishevsky 指出,机器翻译和人工翻译的关键绩效指标 (KPI) 都是针对内容目的的。 他引用了情感参与度、用户满意度、转化率和支持票解决率作为潜在 KPI,具体取决于内容类型和服务方式(MT 或 HT),从而激发了人们的兴趣。
Valérie Dehant 介绍了 Smartling 的工具包,该工具包简化了模式创建、错误记录,并通过配备 MQM 分数的仪表板促进评估人员之间的协作,该分数可以提供有关错误和潜在改进领域的详细见解。 这种对错误的细致分析有助于制定质量改进行动计划。
结论通过了解翻译质量背后的科学,并通过实施 MQM 框架,我们可以使用标准化、可靠的方法来评估质量。 此外,第七集强调,自动化和人工分析的结合对于增强模型、识别异常和提高评估过程的可扩展性至关重要。 观看上面的完整剧集!