查看原文
其他

关注:美国地方、州和联邦政府将大量公共数据集通过SeedAI组织上传到Filecoin进行隐私安全AI分析和利用

美国地方、州和联邦政府将大量公共数据集通过SeedAI组织上传到Filecoin进行隐私安全AI分析和利用


Austin Carson是SeedAI的创始人,这是一个非营利、无党派的倡导组织,旨在帮助全国社区开发AI资源。

Filecoin Slingshot计划是Web3社区团结起来保护和访问大型数据集的一个很好的例子。

简单来说,数据集可以由政府、学术机构、私人组织和个人管理、拥有。
 
地方、州和联邦政府收集了大量数据,但这些数据集通常不是通用的机器可读格式,或者可能包含选民的个人隐私数据。
因此,政府几乎不可能将这些数据发布给公众或研究界。
由于数据量非常庞大,近年来,联邦政府在该领域取得了重大进展。
 

学术机构通常会编译或生成数据集,其中许多成为公共资源,例如Berkeley DeepDrive数据,这个数据集包含超过十万段驾驶视频,海量真实街景等。


——————————
详细内容:


Austin Carson是SeedAI的创始人,这是一个非营利、无党派的倡导组织,旨在帮助全国社区开发AI资源。
他和团队的工作主要是将公共和私人服务聚集在一起,以开发AI模型计划、推动政策并促进投资,同样,他们还会对服务不足的社区进行特别关注。
 
随着人工智能行业的发展,Austin一直在思考如何为后代保留数据集,这与Filecoin的愿景不谋而合。
接下来,我们一起了解一下去中心化存储AI数据集的相关知识。
 

规模奠定基础

数据集的类型五花八门,其大小也有千差万别。
可以简单了解一下这两个公开可用的数据集:它们分别为ImageNet及The Pile,前者有1400万张图像和共计150GB的数据集大小,可用于创建通用图像识别系统;The Pile则是一个大小为825G的语言示例集,可用于制作通用自然语言处理系统。


当今最复杂的AI系统之一是OpenAI的GPT3,它在45T的私有数据集上进行训练——训练成本为1200万美元。

 


这些数据集掌握在谁手上?

它们通常如何存储在当今的网络上?

简单来说,数据集可以由政府、学术机构、私人组织和个人管理、拥有。
 
地方、州和联邦政府收集了大量数据,但这些数据集通常不是通用的机器可读格式,或者可能包含选民的个人隐私数据。
因此,政府几乎不可能将这些数据发布给公众或研究界。
由于数据量非常庞大,近年来,联邦政府在该领域取得了重大进展。
 
学术机构通常会编译或生成数据集,其中许多成为公共资源,例如Berkeley DeepDrive数据,这个数据集包含超过十万段驾驶视频,海量真实街景等。
 
 


 
 
在存储方面,数据集过去通常托管在亚马逊AWS或微软Azure等传统的大型CSP上。但现在有了改善——一些公共数据集(例如NYC Open Data

纽约市将有关人口统计、空气质量和法律通知的公开数据上传到Filecoin网络

)被加载到Filecoin网络上,使这些数据得以被冗余且分布的存储起来,它们的安全性也得到了更好的保障。
 

为什么归档这些大型数据集
很重要?
 


 


 


 
Filecoin如何来保存这些数据集

Filecoin Slingshot计划是Web3社区团结起来保护和访问大型数据集的一个很好的例子。

团队越鼓励维护,并负责任地公开AI数据集,其效果就越好——尤其是现在模型和数据集的数量正在加速增长的现在。

https://slingshot.filecoin.io/

Slingshot是面向存储客户和开发人员安排的社区竞赛,它鼓励人们向Filecoin网络添加真实、有价值和可用的数据。当然,更重要的是,在Slingshot中竞争的团体都支持嵌入Filecoin社区的总体理念,即“保护人类在Filecoin网络上最重要的数据集”。




 
此类项目有助于使世界上任何人都可以访问和探索重要的数据集——用于研究、教育和发现。SEED AI团队也希望未来有更多的人工智能研究人员转向像Slingshot这样的项目,以帮助他们开展机器学习工作。

先前:

纽约市将有关人口统计、空气质量和法律通知的公开数据上传到Filecoin网络;存储人类社会最重要信息的分布式网络又跨进了重要一步

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存