查看原文
其他

翻译技术资讯 | 我需要多少训练数据?

胡跃 国际翻译动态
2024-09-10

这里有一些提示,关于你需要多少训练数据来训练你的机器学习(ML)模型。

您需要的训练数据量取决于许多变量——您使用的模型、您执行的任务、您希望达到的性能、可用特征的数量、数据中的噪声、模型的复杂性等等。













        虽然对于给定的机器学习应用程序需要多少训练数据没有固定的答案,但我们确实有一些关键的指导方针。

NEWS

一般来说,第一条经验法则是,模型的训练数据越多,结果越好。训练数据量越大,模型就越不可能过拟合或者捕获太多的噪声,从而忽略了数据中的真实信号。此外,更多的训练数据将减少高偏差的机会(当模型过度简化假设时)。

NEWS

 接下来,使用领域专业知识可以帮助您缩小到合适大小的训练集。理想情况下,训练数据应该是独立同分布的,以避免不平衡的数据集。因此,训练集中应该有足够的数据来捕获模型可能存在的所有关系,以便能够有效地将输入映射到预测的输出。

NEWS

 最后,基于给定机器学习模型的直觉可以帮助您了解给定模型需要多少训练数据。虽然没有黄金法则,但已知一些机器学习模型比其他模型需要更多的训练数据。对回归问题来说,建议数据点至少比存在的特征数量多十倍。对于图像分类问题,需要数万幅图像来构建一个可信赖的分类器。对于自然语言处理问题,模型需要数万个样本才能看到文本数据中足够的变化。

 (机器翻译,轻度译后编辑,仅供参考)

原文链接:https://www.taus.net/resources/blog/how-much-training-data-do-i-need



特别说明:本文内容仅供学习交流使用,如有侵权请后台联系小编删除。



- END -



摘译编辑:胡跃

推文编辑:刘艺聪‍‍‍‍

项目统筹:李梦轶  王雨晴


▶ 国际翻译动态

| 翻译公司篇 | TransPerfect简介

| 翻译公司篇 | 全球第2名 RWS如文思

| 翻译公司篇 | “收购狂魔”Keywords Studios

| 咨询机构篇 | Nimdzi Insights简介

| 咨询机构篇 | Slator 简介

| 咨询机构篇 | CSA Research 简介

| 行业机构篇 | 国际翻译家联盟FIT

| 行业机构篇 | 美国翻译协会ATA

| 行业机构篇 | 加拿大联邦翻译局 Canada's Translation Bureau

| 翻译院校篇 | 明德大学蒙特雷国际研究学院(MIIS)

| 翻译院校篇 | 格拉斯哥大学

| 翻译院校篇 | 埃塞克斯大学

| 热点追踪 | ChatGPT的伦理问题(上)

热点追踪 | ChatGPT的伦理问题(下)


欢迎大家点赞关注,支持我们~

继续滑动看下一个
国际翻译动态
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存