查看原文
其他

告别机翻尴尬!3步让AI翻译《权游》字幕媲美人工,方法公开!

朱浩瑜 Sealos
2024-11-01

在上一篇文章中,我们利用 FastGPT 工作流复刻了吴恩达提出的长文本反思机器人,成功掌握了两个重要方法:

  1. 循环迭代执行 AI 工作流来突破 LLM tokens 限制;
  2. 利用 AI 自我反思提升翻译质量。

一键生成高质量长文翻译,吴恩达新方法颠覆传统!

这两个方法为我们打开了新的可能性。它们不仅适用于一般的文本处理,还可以应用到更专业的领域,如外文字幕翻译。本文将探讨如何将这些技术与工作流代码结合,实现一个高效的长字幕翻译机器人。

字幕翻译的挑战

在深入技术细节之前,让我们先分析一下翻译长字幕时会遇到的主要难点。这些难点也正是直接使用 AI 无法有效处理的问题:

  1. Tokens 限制:这是最明显的障碍。大语言模型 (LLM) 通常有输出 tokens 的限制,这意味着对于长文本,如果不使用特殊的工作流,可能需要手动将文本分段,逐段输入 AI 进行翻译,然后再手动拼接结果。这个过程不仅繁琐,还容易出错。

  2. 字幕格式的保持:对于字幕来说,时间轴信息至关重要。然而,AI 模型有时会产生 “幻觉”,即无中生有地修改或生成不存在的信息。在字幕翻译中,这可能导致 AI 错误地修改时间轴,使字幕与音频不同步。

  3. 翻译质量:简单的机器翻译往往无法满足观众的需求。即使是大语言模型,单轮翻译的质量也常常不尽如人意。对于字幕来说,翻译质量直接影响观看体验,糟糕的翻译会严重影响观众的沉浸感。

本文将展示如何利用 FastGPT 工作流代码结合 LLM 来有效解决这些问题。我们的方法不仅能克服技术限制,还能显著提升翻译质量。

  • FastGPT 官方地址:https://fastgpt.in

提取字幕信息

工作流的一大优势在于可以结合额外的操作,使 AI 能更精准地处理信息。在字幕翻译中,我们可以先分离 SRT 字幕文件的各个组成部分,然后只让 LLM 翻译文本部分。这种方法既节约了 token 使用,又确保了时间轴信息不被误改。

具体实现如下:

  1. 使用代码执行模块,对输入的原始字幕文本进行解析。
  2. 将字幕信息分类为三部分:时间信息、序号信息和文本信息。
  3. 只保留文本信息用于后续的 AI 翻译。

这种预处理步骤大大提高了整个翻译过程的效率和准确性。

切分文本

为了进一步优化翻译过程,我们需要将提取出的文本信息重新组织。这一步的目的是将文本分割成适合 LLM 处理的大小,同时保持上下文的连贯性

在本例中,我们采用以下策略:

  1. 将文本按照每 40 句为一组进行切分。这个数字是经过多次测试后得出的平衡点,既能保证翻译质量,又不会超出 LLM 的处理能力。
  2. 使用标签分割每句文本。这种标记方法便于后续的重新组装,同时也为 AI 模型提供了清晰的句子边界。

这种切分方法既考虑了 AI 模型的能力限制,又保证了翻译的连贯性。通过保持适当的上下文,我们可以得到更加准确和自然的翻译结果。

格式化原文本

在这一步,我们构建了最终输入给 LLM 的原文本。这个步骤的关键在于如何在控制 tokens 数量的同时,为 AI 提供足够的上下文信息。我们采用了以下策略:

  1. 传入所有文本作为背景上下文。这确保 AI 能理解整段对话的语境
  2. 使用<TRANSLATE_THIS>标签明确指出当前需要翻译的片段。这种方法既能控制 AI 的输出范围,又不会丢失整体语境。

这种格式化方法使得 AI 能在理解全局的基础上,专注于翻译特定部分,从而提高翻译的准确性和连贯性。

LLM 翻译

这是整个过程中最关键的一步。我们利用 LLM 的强大能力来实现高质量翻译。在这一步中,我们将之前提到的 “初始翻译 -> 反思 -> 提升翻译” 的过程整合到了同一个提示词中。

这个过程包括以下几个阶段:

  1. 第一轮直译:要求 AI 严格按照标签逐句翻译,保证准确性。

  2. 第二轮意译:允许 AI 自主发挥,对第一轮的结果进行修改和优化。

  3. 第三轮反思:AI 对自己的翻译进行评价,从多个角度提出改进建议。

  4. 最后一轮修改:根据反思阶段的建议,AI 对翻译进行最后的调整和优化。

这种多轮翻译和反思的方法显著提高了翻译质量。它不仅能捕捉原文的准确含义,还能使翻译更加流畅自然。

值得注意的是,这种方法的效果与直接分步执行相当,但工作流更加简洁高效。

整合字幕

完成翻译后,我们需要将所有信息重新组合成完整的字幕文件。这一步骤包括:

  1. 整合之前分离的序号信息和时间信息。
  2. 将翻译好的文本与原文本对应。
  3. 使用代码执行模块自动完成组装过程。

这个过程不仅提高了效率,还最大限度地减少了人为错误的可能性。

循环执行

为了处理整个长字幕文件,我们需要一个循环执行机制。这是通过一个简单但有效的判断模块实现的:

  1. 检查当前翻译的文本块是否为最后一个。
  2. 如果不是,则将工作流重定向到格式化原文本块节点。
  3. 取出下一段需要翻译的文本,重新开始翻译和拼接过程。

这种循环机制确保了整个长字幕文件能被完整处理,无论字幕有多长。

实际应用示例

为了验证这个方法的有效性,我们选取了一段《权力的游戏》的英文字幕,将其翻译成简体中文。可以看出我们的方法不仅能准确翻译内容,还能保持字幕的格式和时间轴信息。

结论

通过结合 FastGPT 工作流和大语言模型,我们成功开发了一个高效、准确的长字幕翻译系统。这个系统不仅解决了 tokens 限制、格式保持和翻译质量等关键问题,还提供了一个可扩展的框架,可以应用于各种类型的字幕翻译任务。

AI 技术在实际应用中潜力巨大,只要用对了方向,便可以极大提高我们的生产力。

最后是福利时刻,想获取本文所述长字幕翻译专家工作流的同学,只需要👇

关注【Sealos】公众号

回复「123」,限时免费领取!

↓ ↓ ↓ ↓ ↓

加入 Sealos 开源社区体验像个人电脑一样简单的云操作系统



🏠官网链接

https://sealos.run


🐙GitHub 地址

https://github.com/labring/sealos


📑访问 Sealos 文档

https://sealos.run/docs/Intro


🏘️逛逛论坛

https://forum.laf.run/

往期推荐

一键生成高质量长文翻译,吴恩达新方法颠覆传统!

2024-07-10

FastGPT 线下 Meetup 启动!第一站厦门!快报名!

2024-07-12

3 大智能体平台详细对比,除了 Coze,还有...

2024-07-18


关于 Sealos

Sealos 是一款以 Kubernetes 为内核的云操作系统发行版。它以云原生的方式,抛弃了传统的云计算架构,转向以 Kubernetes 为云内核的新架构,使企业能够像使用个人电脑一样简单地使用云。


关注 Sealos 公众号与我们一同成长👇👇👇

继续滑动看下一个
Sealos
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存