字节跳动账户被 OpenAI 封禁,泄露了国产大模型训练的又一潜规则
据国外媒体 the verge 报道,字节跳动秘密使用 OpenAI 的账户来训练与 OpenAI 有竞争关系的大模型,其 api 账号遭到封禁。
OpenAI 发言人 Niko Felix 确认了对字节跳动账户的暂停,并表示所有API客户都必须遵守他们的使用政策,以确保其技术用于良好目的。尽管字节跳动很少使用OpenAI的API,而主要是通过微软的Azure 平台进行,但他们在进一步调查期间暂停了其账户。
字节跳动也做出了回应,他们确实在项目的早期使用了GPT来注释模型,但这些数据已经在年中左右的时候从其训练数据中删除。字节跳动的国外发言人强调,字节跳动获得了微软的许可使用GPT API,并仅将其用于非中国市场的产品和功能。同时,他们表示字节跳动在9月进行了内部检查并采取了进一步规范措施,以确保严格遵守相关服务的使用条款。
很多科技媒体报道了这个事情,但没有进一步说明,为什么字节跳动会这么做。
其实,这也基本是国内大模型训练的一个潜规则,就是利用 OpenAI 生成的对话数据,再基于 Meta 开源的 Llama,来做自己的大模型。要不然,之前完全没有积累的国内公司,怎么突然创造出了这么多的大模型呢..
我们来看大模型训练的步骤:
1. 数据收集与预处理:这是一个关键阶段,涉及到收集和准备用于训练模型的数据。使用OpenAI生成的数据来训练自己的模型,就是在这一阶段进行的。在这个阶段,数据被收集、清洗、标注并预处理以适应模型训练的需要。
2. 模型训练:在这一阶段,使用准备好的数据来训练模型。这个过程可能涉及到参数调整、优化算法的选择等。
3. 模型评估与调优:训练完成后,模型需要在验证集上进行评估,以测试其性能。根据评估结果,可能需要对模型进行调优。
4. 模型部署与应用:一旦模型性能达到满意的水平,它就可以被部署到实际应用中。
5. 模型维护与迭代:模型在实际应用中会持续收集新数据,可能需要定期进行重新训练或调整以适应新的数据和需求。
数据的收集与预处理的工作量非常大,而且之前也有论文表明,用 OpenAI 生成的对话数据质量很高,完全可以用来做模型训练。那用 OpenAI 的能力来生成训练数据这种效率高、质量也高的事情,自然就被采用了。
但这些动作很明显违反了 OpenAI 的相关政策。OpenAI对其模型、工具和服务的所有用户都设定了特定的使用政策。这些政策旨在确保技术的安全和负责任的使用。这些政策涵盖了广泛的禁止活动范围,包括非法活动、生成有害或仇恨内容、各行业中的高风险活动以及侵犯隐私等。
在隐私和数据所有权方面,OpenAI强调他们不会使用来自ChatGPT企业版或其API的数据来训练他们的模型。用户保留对其数据的所有权和控制权。对于微调模型,OpenAI允许用户使用自己的提示-完成对来调整特定任务的某些模型。这些微调模型和用于此目的的数据仅限于用户使用,不会与其他人共享或用于训练其他OpenAI模型。
此外,OpenAI的平台政策允许将其API集成到各种产品中,但需遵守其使用政策中提到的限制。这意味着虽然你可以在广泛的应用程序中使用OpenAI的模型和API,但任何通过OpenAI的服务生成或获取的数据的使用都必须遵守他们的政策。
这次事件也暴露了国际AI界的竞争态势,尤其是在大模型这一前沿技术领域。在全球范围内,AI 大模型的发展日益成为科技巨头之间竞争的重点,而中国作为科技崛起的重要力量,自然也不会缺席这场科技革命。OpenA I暂停字节跳动账户事件,不仅是单个公司间的纠纷,也折射出了全球AI领域中存在的合作与竞争的复杂格局。