由于我们在本地化基础设施中发挥的核心作用,Smartling 可以对网络内容领域的使用模式和总体趋势进行宏观分析。

最近,我们在这些数据中发现了一些有趣的东西。

我们注意到 LLM 机器人正在扫描本地化网站。 据推测,这是为了挖掘他们的内容,以进一步改进他们自己的基础模型。

这是一个全面的趋势,各种类型和规模的公司都会受到影响。 不论这些内容的合法性、道德性或所有权如何,我们立即意识到这些抓取行为可能会造成互联网回音室的形成。

训练数据污染及其后果

随着越来越多的公司采用机器翻译优先或机器翻译后备的方式处理其网络内容,再加上最近法学硕士 (LLM) 作为翻译服务提供商的出现,法学硕士 (LLM) 可能很快就会发现自己不知不觉地“自食其果”。

当 LLM 的训练数据集与源自 LLM 的翻译内容交织在一起时,会对 LLM 的质量和有效性产生什么影响?

LLM 依赖于互联网上大量免费的数字内容,无论是报纸文章、学术期刊、博客文章还是扫描书籍,来积累足够的内容以增加预训练模型的规模和复杂性,从而提供类似人类的生成能力。 然而,如果所摄取内容中有相当一部分是完全由法学硕士 (LLM) 创建的,而没有通过人工反馈进行任何强化学习,那么他们的输出质量和准确性是否会开始下降? 反馈回路是否会产生某种人工智能主义,最终传播并改变语言的结构和语调?

很难估计其影响,但鉴于我们正处于这场生成式人工智能革命的开始阶段,我们看到了法学硕士提供商所使用的数据收集过程中的潜在缺陷。

知识产权和价值问题

识别所有属于机器人的传入流量是不可能的,因为我们依赖于它们正确使用声明其来源和目的的 User-Agent 标头。 许多不道德的抓取机器人不仅会隐藏其目的,还会主动尝试伪装自己,并融入任何公共网站看到的一般流量中。

未来过滤这种“回音室”效应的一种可能方法是让法学硕士 (LLM) 与内容提供商合作开发某种水印,以识别法学硕士 (LLM) 生成的内容,以便对其进行适当的分类和处理。 这种类型的水印可能会被需要来减轻不良行为者可能表现出的虚假信息、知识产权盗窃和其他反社会行为的影响。

此外,不介意或有兴趣让 LLM 抓取其数据的公司有一天可能会选择通过出售 LLM 抓取程序的访问权限来将其内容货币化。 这可能被证明是一项利润丰厚的副业,可以通过协商的方式为人类生成的内容支付价值。 内容制作者已经对 LLM 提起了诉讼,试图重新获得对其版权材料的控制权。

我们能做什么呢?

LLM 抓取网站内容并不是什么秘密。 然而,许多公司可能会惊讶地发现这种情况正在发生在他们身上,他们可能在不知情的情况下参与了这些活动,这些活动给他们带来很少的利益,却为法学硕士创造了无尽的价值。

在机器翻译的世界里,“用人工智能来帮助人工智能”并不是一个新鲜的想法。 当客户特定、领域或长尾语言数据稀缺时,采用数据增强技术并不少见,例如对类似网站进行网络爬取、反向翻译或通过创建略有不同的源语言和目标语言变体进行数据制造。

然而,任何依赖该模型输出的人都必须了解这种方法的优缺点。 大多数情况下,这些技术只能逐步提高模型质量。 归根结底,它们无法取代机器学习的基本理念——需要标记良好且相关的数据

立即体验更智能的翻译

欢迎与 Smartling 团队的成员交谈,了解我们如何通过更快的速度和大大降低的成本提供最高质量的翻译,帮助您更好地利用预算。
Cta-Card-Side-Image