告别机翻尴尬!3步让AI翻译《权游》字幕媲美人工,方法公开!
在上一篇文章中,我们利用 FastGPT 工作流复刻了吴恩达提出的长文本反思机器人,成功掌握了两个重要方法:
循环迭代执行 AI 工作流来突破 LLM tokens 限制; 利用 AI 自我反思提升翻译质量。
一键生成高质量长文翻译,吴恩达新方法颠覆传统!
这两个方法为我们打开了新的可能性。它们不仅适用于一般的文本处理,还可以应用到更专业的领域,如外文字幕翻译。本文将探讨如何将这些技术与工作流代码结合,实现一个高效的长字幕翻译机器人。
字幕翻译的挑战
在深入技术细节之前,让我们先分析一下翻译长字幕时会遇到的主要难点。这些难点也正是直接使用 AI 无法有效处理的问题:
Tokens 限制:这是最明显的障碍。大语言模型 (LLM) 通常有输出 tokens 的限制,这意味着对于长文本,如果不使用特殊的工作流,可能需要手动将文本分段,逐段输入 AI 进行翻译,然后再手动拼接结果。这个过程不仅繁琐,还容易出错。
字幕格式的保持:对于字幕来说,时间轴信息至关重要。然而,AI 模型有时会产生 “幻觉”,即无中生有地修改或生成不存在的信息。在字幕翻译中,这可能导致 AI 错误地修改时间轴,使字幕与音频不同步。
翻译质量:简单的机器翻译往往无法满足观众的需求。即使是大语言模型,单轮翻译的质量也常常不尽如人意。对于字幕来说,翻译质量直接影响观看体验,糟糕的翻译会严重影响观众的沉浸感。
本文将展示如何利用 FastGPT 工作流代码结合 LLM 来有效解决这些问题。我们的方法不仅能克服技术限制,还能显著提升翻译质量。
FastGPT 官方地址:https://fastgpt.in
提取字幕信息
工作流的一大优势在于可以结合额外的操作,使 AI 能更精准地处理信息。在字幕翻译中,我们可以先分离 SRT 字幕文件的各个组成部分,然后只让 LLM 翻译文本部分。这种方法既节约了 token 使用,又确保了时间轴信息不被误改。
具体实现如下:
使用代码执行模块,对输入的原始字幕文本进行解析。 将字幕信息分类为三部分:时间信息、序号信息和文本信息。 只保留文本信息用于后续的 AI 翻译。
这种预处理步骤大大提高了整个翻译过程的效率和准确性。
切分文本
为了进一步优化翻译过程,我们需要将提取出的文本信息重新组织。这一步的目的是将文本分割成适合 LLM 处理的大小,同时保持上下文的连贯性。
在本例中,我们采用以下策略:
将文本按照每 40 句为一组进行切分。这个数字是经过多次测试后得出的平衡点,既能保证翻译质量,又不会超出 LLM 的处理能力。 使用标签分割每句文本。这种标记方法便于后续的重新组装,同时也为 AI 模型提供了清晰的句子边界。
这种切分方法既考虑了 AI 模型的能力限制,又保证了翻译的连贯性。通过保持适当的上下文,我们可以得到更加准确和自然的翻译结果。
格式化原文本
在这一步,我们构建了最终输入给 LLM 的原文本。这个步骤的关键在于如何在控制 tokens 数量的同时,为 AI 提供足够的上下文信息。我们采用了以下策略:
传入所有文本作为背景上下文。这确保 AI 能理解整段对话的语境。 使用<TRANSLATE_THIS>标签明确指出当前需要翻译的片段。这种方法既能控制 AI 的输出范围,又不会丢失整体语境。
这种格式化方法使得 AI 能在理解全局的基础上,专注于翻译特定部分,从而提高翻译的准确性和连贯性。
LLM 翻译
这是整个过程中最关键的一步。我们利用 LLM 的强大能力来实现高质量翻译。在这一步中,我们将之前提到的 “初始翻译 -> 反思 -> 提升翻译” 的过程整合到了同一个提示词中。
这个过程包括以下几个阶段:
第一轮直译:要求 AI 严格按照标签逐句翻译,保证准确性。
第二轮意译:允许 AI 自主发挥,对第一轮的结果进行修改和优化。
第三轮反思:AI 对自己的翻译进行评价,从多个角度提出改进建议。
最后一轮修改:根据反思阶段的建议,AI 对翻译进行最后的调整和优化。
这种多轮翻译和反思的方法显著提高了翻译质量。它不仅能捕捉原文的准确含义,还能使翻译更加流畅自然。
值得注意的是,这种方法的效果与直接分步执行相当,但工作流更加简洁高效。
整合字幕
完成翻译后,我们需要将所有信息重新组合成完整的字幕文件。这一步骤包括:
整合之前分离的序号信息和时间信息。 将翻译好的文本与原文本对应。 使用代码执行模块自动完成组装过程。
这个过程不仅提高了效率,还最大限度地减少了人为错误的可能性。
循环执行
为了处理整个长字幕文件,我们需要一个循环执行机制。这是通过一个简单但有效的判断模块实现的:
检查当前翻译的文本块是否为最后一个。 如果不是,则将工作流重定向到格式化原文本块节点。 取出下一段需要翻译的文本,重新开始翻译和拼接过程。
这种循环机制确保了整个长字幕文件能被完整处理,无论字幕有多长。
实际应用示例
为了验证这个方法的有效性,我们选取了一段《权力的游戏》的英文字幕,将其翻译成简体中文。可以看出我们的方法不仅能准确翻译内容,还能保持字幕的格式和时间轴信息。
结论
通过结合 FastGPT 工作流和大语言模型,我们成功开发了一个高效、准确的长字幕翻译系统。这个系统不仅解决了 tokens 限制、格式保持和翻译质量等关键问题,还提供了一个可扩展的框架,可以应用于各种类型的字幕翻译任务。
AI 技术在实际应用中潜力巨大,只要用对了方向,便可以极大提高我们的生产力。
最后是福利时刻,想获取本文所述长字幕翻译专家工作流的同学,只需要👇
关注【Sealos】公众号
回复「123」,限时免费领取!
↓ ↓ ↓ ↓ ↓
https://sealos.run
https://github.com/labring/sealos
https://sealos.run/docs/Intro
https://forum.laf.run/
往期推荐
2024-07-10
2024-07-12
2024-07-18
关于 Sealos
Sealos 是一款以 Kubernetes 为内核的云操作系统发行版。它以云原生的方式,抛弃了传统的云计算架构,转向以 Kubernetes 为云内核的新架构,使企业能够像使用个人电脑一样简单地使用云。
关注 Sealos 公众号与我们一同成长👇👇👇