▌影像大数据挖掘
数据挖掘从数据形式和相关技术上说,大致可以划分为结构数据挖掘和非结构数据挖掘。
所谓结构数据挖掘是基于结构化的数据基础上的知识发现,例如我们常见的关系型数据,包括数值型数据、字符型数据、日期型数据等等,应用相关的数据挖掘技术对这些关系型数据开展分析。而所谓非结构数据挖掘是基于非结构化的数据基础上的知识发现,例如我们常见的自然语言文本数据、各种图像数据、各种音频数据等等,基于这些类型的数据开展数据挖掘分析。
医学影像数据挖掘就是非结构数据挖掘的一种,它有如下几个主要特点: 1. 影像数据一般具有相对的含义,而结构化数据一般具有绝对的含义。 2. 影像内容的理解具有主观性的特点,对影像信息可以有多种不同理解,并依赖于影像表示方法和应用领域专业知识。 3. 影像信息中包含影像数据对象的空间关系信息。从目前的影像数据挖掘技术的现状来说,原始影像一般还不能直接用于影像数据挖掘分析,必须进行预处理,以生成可用于高层次挖掘的影像特征库。影像数据挖掘的一般流程通常包括影像的存储、影像的预处理、影像的搜索、影像的挖掘和展示等步骤。
▌影像数据挖掘方案
目前,影像数据挖掘方案主要有功能驱动型模型和信息驱动型模型。所谓功能驱动型模型是以不同的功能模块来组织,功能驱动的影像数据挖掘是针对具体应用的特定要求来设计数据挖掘方案的,通常包括: 1. 影像采集模块-从影像数据库中抽取影像数据; 2. 预处理模块-提取影像特征,并把特征信息存放在特征数据库中; 3. 搜索引擎-利用影像特征信息进行匹配查询; 4. 知识发现模块-对影像数据进行算法分析,以发现数据的主题、特征、关系等规律。
所谓信息驱动型模型,是针对影像的原始信息开展基于内容的影像数据挖掘的方案。该方案基于原始特征的对象或区域信息,利用挖掘算法和专业知识将整幅影像进行有意义地分割,然后开展高层次地计算与挖掘分析,从而推导出具有高层次语义的、易用的、易于理解的模式。该方案将影像信息划分为四个层次: 1. 象素层-由原始影像信息和原始影像特征组成,如象素点、纹理、形状和色彩等。 2. 对象层-处理基于象素层原始特征的对象和区域信息。 3. 语义层:结合专业知识从识别出的对象和区域中生成高层次的语义概念。 4. 知识层:可结合与某一专业相关的文字和数字信息发现潜在的领域知识和模式。在信息驱动方案中,象素层和对象层主要进行影像处理、对象识别和特征提取,而语义层和知识层主要进行影像数据挖掘和知识整合。该方案可以在每个层次上以及不同层次间开展数据挖掘分析。
▌影像数据挖掘算法
与结构化数据挖掘的步骤和算法相类似,影像数据挖掘的技术主要包括:影像数据预处理技术:如去噪、对比度增强、影像分割等等;特征提取和模式技术;如分类、规则提取、预测和聚类等等,既包括有监督学习也包含无监督学习。下面,我们就简单介绍一下有监督学习的分类技术和无监督学习的聚类技术。基于影像数据的分类技术流程主要分为三步: 1. 建立影像表示模型,对已进行类标记的影像样本数据进行特征提取,并建立每一影像的属性描述; 2. 对样本数据集进行训练和学习,得到具有相当分类精度的分类模型; 3. 根据分类模型对未标记的影像数据集进行自动分类判别。
影像数据分类的挑战性在于,如何建立低层可视特征和高层语义分类间的映射关系。
基于影像数据的聚类技术,是根据没有先验知识的影像数据分布,将无类别标记的影像数据划分为有含义的不同簇,通常包括四个步骤: 1.影像特征提取和选择; 2. 建立影像相似性模型; 3. 尝试不同的聚类算法; 4. 评估最佳的分组方案。
影像数据聚类的挑战性在于,如何在分簇未知的情况下,如何科学地找到一个最佳的分类方案。
▌影像数据挖掘应用
人脑是高度复杂的时空动力系统。基于神经影像大数据,群组独立成分分析(ICA)作为一种信息驱动型算法,被广泛应用于探索人脑系统的时空特性。据文献报道,中国科学院心理研究所研发出一种在多被试神经影像数据中挖掘被试分组(亚组)的群组ICA方法-gRAICAR。模拟数据显示,gRAICAR可以精确地揭示脑功能网络的个体间差异。进一步地,基于实际静息态功能磁共振成像数据,gRAICAR不仅能够估计每个脑功能网络的被试间的一致性,揭示被试间在脑功能上的相似关系,而且可以据此探测具有较高一致性的亚组。gRAICAR成为完全的信息驱动方法,为科研人员基于数据产生进一步的科学假设提供参考,将为深入挖掘多被试神经影像数据,为建立与心理精神相关脑功能疾病的神经影像标志提供有力工具,为“开放式神经科学”提供方法学支撑。
|