智库追踪 | NITRD:联邦大数据研发战略计划
美国联邦大数据研发战略计划定义了一系列联邦机构相关的战略,主要用于引导或资助数据科学、数据集成应用、大规模数据管理和分析的研发。这些战略将支持国家的大数据创新生态圈,使国家具备分析、提取数据的能力,可基于大的、多样化和实时的数据集做出决策,使联邦机构和国家具备新能力,包括加速和推进科学发现和创新、引领新领域的研究、实现不可能的查询、培养21世纪的科学家和工程师、促进新经济增长。
联邦大数据研发战略计划主要有7个,代表了大数据研发最重要的关键性领域。
继续增加对下一代大规模数据收集、管理和分析的投资,使政府机构能采用和管理更大规模的数据,以建立与数据相关的基本新业务和能力。
计算和数据分析的进步,将提供新的抽象概念来处理复杂的数据,并能够简化可扩展性和并行系统的编程,与此同时还可以实现最大的性能。计算机科学、机器学习和统计领域的根本性进步将促进灵活、迅速响应和预测性的数据分析系统的发展。深入研究众包、公民科学和集体分布式任务等社会计算将有助于发展可以使人类进行可能超出计算机能力范围的任务。与数据交互和数据可视化的新技术和方法将强化“人类—数据”的联系(接口)。
这一战略,重要的是做好两件事:
(1)使数据规模、速度和复杂性同步发展;
(2)开发新的方法,实现面向未来的大数据能力。
在数据驱动型决策中提高透明度需要提供技术和工具支持,包括可以在决策过程中显示详细审计信息的工具。
其次,还需要对元数据框架进行研究,以保证数据的可信性,包括记录上下文和语义数据。
在使用机器学习的数据驱动型决策和发现系统时,跨学科研究是必要的,这样才能研究清楚如何才能最有效地使用数据来支持和提高人类的判断力。
要实现这一战略,需要做好以下事情:
(1)了解数据的可信度和知识的有效性;
(2)设计工具支持数据驱动决策。
为了跟上大数据发展的步伐,投资先进的网络基础设施研究是必不可少的。同时,投资可使得美国保持在全球尖端科学研究方面的竞争优势,以实现政府的任务。
协调国家战略,需要确定安全、先进的网络基础设施的需要和需求,以支持大量数据的处理和分析,包括大量来自物联网的实时数据流、商业、科学、国防和联邦其它机构参与的各领域的应用,达到保护个人隐私的作用。
共享基准、标准和计量是功能优良的网络基础设施生态圈必备的。对设计的参与也是不可或缺的,可用于优化基础设施的实用性并能将其影响降到最低。
建立人力资源的教育和培训是至关重要的,需要对用户进行适当的教育和培训,包括工具的使用。
要实现这一战略,需要做好以下几件事:
(1)加强国家的数据基础设施建设;
(2)准许建设用于大数据的先进的科学网络基础设施;
(3)强化社区对灵活、多样化基础设施资源的需求。
大多数数据只有在有用和可接入的情况下,其价值和影响才能最大化。大数据的规模和异质性是数据共享的重要挑战,应鼓励数据共享,包括源数据的共享、界面共享、元数据共享和标准的共享。
应鼓励相关基础设施提高互操作性,提高现有数据的可访问性和价值,改善接入性和现有数据的价值。结合数据库强化新分析性能;建立现有国家最佳实践和数据共享标准,以及开发改善数据共享可发现性、可用性和传输性新技术;更有效的使用未来发展的资源;研究人员数据界面,使其支持灵活、高效、可用的数据界面,满足不同用户群的特殊需求。
联邦机构提供研发基金,可通过政策刺激大数据和数据科学研究的支持,综合分析劳动力流和相关数据,驱动元数据标准和注释系统,有助于鼓励数据的再利用和研究投资的回收。
要实现这一战略,需要做好以下几方面工作:
(1)开发元数据最佳实践,增加数据的透明度和效用;
(2)提供高效、可持续、安全的数据资产的获取。
隐私、安全和道德问题是大数据创新生态系统中的关键因素。对隐私的关注直接影响数据收集者和数据提供者对数据的审议和管理。对安全的关注涉及个人信息需求和数据保护。对伦理的关注涉及数据分析可行性,可能导致歧视燃起民权争论。
大数据研究需要了解和重视各种不同应用领域的需求,形成实际解决方案,这对数据隐私、安全伦理都是挑战。新的政策解决方案对保护隐私和明确数据所有权是必要的。技能和工具需要用于评价数据的安全性和数据保护,对于高度分布式的网络,大数据应用场景正变得越来越普遍。
需要有综合评价数据生命周期的能力,这要求能确定长期存在的风险或删除数据。此外,国家要促进大数据伦理方面的研究,确保技术不会出现传播错误或对某些群体不利(无论是明示或暗示)。要开展伦理敏感的大数据研究,更好地关注与使用、风险和成本相关的大数据创新的价值和社会伦理。
要实现这一战略,需要做好以下几件事:
(1)提供公平的隐私保护;
(2)建立安全的大数据网络空间;
(3)了解数据伦理,实现数据治理。
通过培训和正规教育,可满足对大数据人才的增长需求,确保美国在经济方面的竞争优势。
这些亟需的人才包括数据科学的领域专家和“核心”数据科学家。本科及以上的专门的数据科学教育可以满足业界、政府和学术各领域的数据人才需求。
更多大学课程的基础议题和其它短期培训模式也是需要的,可帮助更多的劳动力实现向具有数据能力的雇员的过渡。
可通过在线课题、居民科学项目和K-12教育,使数据科学培训扩展到所有人。数据科学教育研究应探索数据文化、课程模式,并在大学各年级教授数据科学技能。
要实现大数据教育和培训战略,需要:
(1)保持大数据科学家数量的不断增长;
(2)增加数据领域的专家;
(3)扩展具有数据能力劳动力的范围;
(4)改善公众的数据文化水平。
应建立可持续的机制,增加大数据机构间的合作能力,消除官僚对技术和数据共享的阻碍,建立可持续的发展项目。
第一种可行的机制是建立跨机构的开发或试验床,帮助各机构在新技术、研发创新、能力运用上的合作,并实现研发成果的产业化。
另一种方式是推出一种政策,实现数据跨机构的快速和动态共享,以应对紧急、重要事件的发生,例如国家灾害。
第三种方式是建立大数据基准中心,重点关注大的、挑战性的应用,确定数据库、分析工具和必要需求的互操作,实现国家的关键性、优先级目标。
最后,国家大数据创新生态圈需要强有利的联邦机构的实践者,推动快速创新、确保长期创新思想出现、实现研发投资的最大收益。
要实现这一战略,需要:
(1)鼓励跨行业、跨机构的大数据合作;
(2)推出快速响应和影响可量化的政策框架。