其他
微软、OpenAI用上“数据永动机” 合成数据是蜜糖还是砒霜?
编辑 | 郑远方
▌人类真实数据售价高昂
其中,Reddit本月起开始对数据接口使用收费。根据第三方软件Apollo的开发者Christian Selig透露,Reddit收费标准为0.24美元/1000次API响应——对于Apollo来说,这大约相当于200万美元/月开销。 而根据推特今年3月发布的API政策,企业需要为抓取推文的API支付每月4万美元至20万美元不等的费用,对应可以获得5000万至2亿条推文。而测算数据显示,最低一个档次的套餐只约等于整体推文的0.3%。
▌如何用合成数据训练?
在训练一个高级数学模型时,Cohere可能会使用两个AI模型进行对话,其中一个扮演数学老师,另一个则充当学生。之后这两个模型就会就三角函数等数学问题对话,“其实一切都是模型‘想象’出来的”。 如果在这个过程中,模型说错了什么,人类就会在查看这段对话时作出纠正。
▌蜜糖还是砒霜?
推荐阅读