从R语言小白到复现Nature子刊SCI!这篇真的是今年最应该收藏的套路!
随着高通量测序和多组学的快速发展,单细胞多组学技术和机器学习已经成为了生信研发的新生力量,在生命科学和医学多领域有着广泛的应用前景。
应新老客户的培训需求,特举办“集成多组学数据的机器学习在生物医学中的应用”、“单细胞多组学及空间组学数据分析与应用”专题培训班,本次培训主办方为北京软研国际信息技术研究院,承办方为互动派(北京)教育科技有限公司,具体相关事宜通知如下:
专题一 (在线直播六天) | (详情内容点击查看) 2023年08月19日-08月21日 2022年08月26日-08月28日 |
专题二 (在线直播四天) | (详情内容点击查看) 2023年08月26日-08月27日 2023年09月02日-09月03日 |
01
导师介绍
专题一
由教育部直属全国重点大学,国家“双一流”A类,“985”, “211”重点建设高校医学院副教授,硕士生导师讲授。中科院院士团队骨干成员,美国Top50大学博士,博士后。近五年发表SCI论文10余篇。主持和参与国家级,省部级自然科学基金项目多项,拥有多年生物医学数据挖掘结合人工智能算法研究经验。主要擅长多组学联合分析在肿瘤等疾病的机制研究和生物多组学的算法开发。
专题二
由广东省重点院校医药信息工程学院讲师讲授,主讲《基因组信息学》,《生物信息学》,《系统生物学》等生物信息专业课程;美国印第安纳大学计算生物与生物信息中心访问学者,南方医科大学基础医学院博士后;研究方向为基因组多组学数据分析,基因组数据分析软件开发及计算流程搭建,发表相关SCI论文11篇。主持广东省单细胞技术与应用重点实验室发放基金一项,广州市基础与应用基础研究专题一项。
02
培训内容
专题一通过基础入门+进阶实例演练的讲授思路,从初学及应用研究角度出发,带大家实战演练机器学习在多组学整合分析中的数据处理、预测模型以及生物学意义阐述等,助力大家掌握多种机器学习算法模型的构建以及在多组学联合分析在肿瘤及慢性病中的实际应用,并介绍当下深度学习算法高维组学数据处理,生物网络挖掘的前沿方法,最后以论文复现讲授单细胞组学论文的常用图表制作、细胞差异分析、细胞注释(自动与手动)、蛋白-蛋白相互作用网络构建与可视化,助力于研究创新机器学习算法解决生物学及临床疾病问题与需求。
专题二采用理论+实操的授课方式,帮助学员掌握高通量测序原理及数据的预处理和质量控制方法,Linux命令行操作和R语言编程知识。并结合案例展示最新的空间组学概念和技术,帮助学员掌握利用spaceranger和Seurat处理10X Visium空间转录组数据的方法。再结合案例分析展示如何使用单细胞数据和空间组学数据设计和实施最前沿的医学研究项目。通过介绍生物信息学中常用到的机器学习和深度学习算法概念和基本原理、探讨它们在基因表达数据、生物网络分析和高通量测序数据分析中的具体应用。最后结合案例培养学员应用算法解决临床医学问题的能力。
03
培训大纲
集成多组学数据的机器学习在生物医学中的应用专题 | |
机器学习及生物组学基础 | 学习目标:对机器学习基本概念进行介绍,让大家对机器学习基本概念有大致了解。明确机器学习方法的适用性,优势,以及局限性等 |
Ø 什么是机器学习 Ø 机器学习的应用实例 Ø 生物组学简介(基因组学,转录组学,蛋白组学,代谢组学) Ø 机器学习在在多组学数据分析的应用 | |
python语言基础 | 学习目标:机器学习主流实现是python语言。学习机器学习之前,有针对性的对python进行系统的学习,数据的基本处理,以方便将来开展机器学习的学习 |
Ø python安装与开发环境的搭建 Ø 基本数据类型、组合数据类型 Ø 机器学习在在多组学数据分析的应用 Ø 函数、列表 、元组、字典、集合 Ø 控制结构、循环结构 Ø Numpy模块——矩阵的科学计算 Ø Matplotlib模块——数据处理与绘图 Ø Pandas模块——csv数据处理与分析 Ø Sklearn模块——机器学习模型基础软件包调用 案例实践教学一:案例教学一:利用Python pandas读取组学CSV数据并进行数据探索可视化分析(Exploratory data analysis,EDA) | |
经典机器学习模型及多组学应用 | 学习目标:对在多组学整合分析中最常使用的几种机器学习模型进行介绍,总结它们的优缺点及适用范围,通过动手实践快速掌握几种方法 |
Ø 线性模型(线性回归、梯度下降、正则化、回归的评价指标) Ø 决策树(决策树原理、ID3算法、C4.5算法、CART算法) Ø 支持向量机(线性支持向量机、可分、不可分支持向量机) Ø 集成学习(AdaBoost和GBDT算法、XGBoost算法、LightGBM算法) Ø 模型选择与性能优化(数据清洗、特征工程、数据建模) Ø Scikit-learn机器学习库的使用 案例实践教学二:基于转录组学数据进行端到端的机器学习项目泛癌预测(数据预处理,数据建模,模型评估) 案例实践教学三:基于蛋白组学-代谢组学在COVID-19中生物标志物的发现 | |
深度学习神经网络基础 | 学习目标:从零开始手动实现一个神经网络,在这一过程中对所涉及的原理进行系统讲解及实践,让大家能够更深刻的理解算法背后的原理以及实现方法,之后有利于对其他机器学习更全面快速掌握 |
Ø 深度学习与机器学习区别与联系 Ø Perceptron, 神经元基础 Ø 神经网络的梯度下降法与损失函数 Ø 神经网络中的前向传播与反向传播 Ø 神经网络的模型评估 Ø 超参数优化,batch size, learning rate Ø 深度学习工具——Pytorch的使用 Ø 深度学习工具——Keras的使用 案例教学四:基于高维转录组学及手动构建神经网络进行特征筛选及预测 | |
多组学联合分析与疾病分子机制 | 学习背景:研究影响疾病表型变化影响的因素包括DNA,RNA,蛋白质和代谢物等。单一组学的数据难以系统全面地解析复杂生理过程的调控机制,多组学联合分析通过对来自基因组、转录组、蛋白组、代谢组和脂质组等不同生物分子层次的批量数据进行归一化处理、比较分析和相关性分析等统计学分析,建立不同层次分子间的数据关系,从而共同探究生物体内潜在的调控网络机制,为生物体作用机制提供了更多证据。 学习目标:从常见的多组学联合分析策略出发,如转录组+代谢组,蛋白组+代谢组等,对常用的数理统计分析方法进行介绍,之后学习如何利用数据库如KEGG等进行生物功能富集分析,结合机器学习方法进行生物标志物的挖掘,疾病预测以及生物分子作用机制等。 |
Ø 常用生物组学实验与分析方法,如转录组学,代谢组学 Ø 常用组学数据库介绍,如TCGA,PathBank,HMDB,KEGG Ø Python批量处理组学数据-归一化处理,差异分析,相关性分析 Ø 生物功能分析:GO 功能分析、代谢通路富集、分子互作等 Ø 基于转录组学的差异基因筛选,疾病预测 Ø 基于差异基因,联合代谢组学分析疾病分子发生机制 Ø 组学数据可视化,如火山图,t-SNE降维,代谢通路网络分析 Ø 组学特征(基因,蛋白,代谢物)选择(随机森林分析) Ø 单细胞转录组学数据分析及可视化分析 案例教学五:(包含以下内容) 转录组+代谢组的多组学分析胃癌,实现从“因”和“果”两个层面来探究生物学问题,相互间进行验证 从海量的数据中筛选出关键基因、代谢物及代谢通路 深度解析胃癌肿瘤标志物解释肿瘤发生发展的复杂性和整体性 | |
深度学习在多组学数据中的应用 (入门与实践) | 学习目标:随着高通量组学平台的发展,生物医学研究大多采取了多组学技术结合的方法,不同组学来源(如转录组学、蛋白质组学和代谢组学)的数据可以通过基于深度学习的预测算法进行整合,以揭示系统生物学的复杂工作。在这一部分我们会重点对基于深度学习的神经网络进行系统的讲解,学习常见的神经网络架构在多组学分析的应用。 |
Ø 深度学习介绍,常用神经网络架构介绍 Ø 监督学习介绍,神经网络在转录组学+代谢组学的疾病预测为例 Ø 无监督学习介绍,高维组学数据降维,聚类分析,以单细胞转录组数据为例 案例教学六:基于t-SNE和UMAP进行单细胞转录组学数据降维,细胞亚型聚类分析。 | |
深度学习神经网络进阶(入门及实践) | 学习目标:学习前沿神经网络如卷积神经网络,循环神经网络,注意力机制,自编码器,图神经网络在生物组学及药物筛选的应用,迁移学习应用等。 |
Ø 卷积神经网络基础及其应用(影像组学) Ø 循环神经网络基础及其应用(蛋白组学) Ø 注意力机制基础及其应用 Ø 自编码器基础及其应用(转录组学) Ø 图神经网络基础及其应用(代谢组学) Ø 迁移学习 Ø 深度学习框架——transformer的应用 案例教学七:基于影像组学及卷积神经网络进行肿瘤病理图片特征提取与分级预测 案例教学八:基于自编码器进行药物/代谢物分子生成 | |
深度学习在组学数据药物发现的应用 (入门及实践) | 学习目标:基于基因表达特征建立疾病与小分子药物之间的关联关系,运用转录组学,蛋白组学,机器学习算法进行药物重定位。 |
Ø 基于生物组学的药物发现基础介绍 Ø 药物分子化学特征提取(分子指纹,描述符,分子图) Ø 图神经网络预测药物分子性质 Ø 基于胰腺癌差异表达基因进行药物重定位 案例教学九:基于机器学习图神经网络进行代谢物/药物分子的性质预测 案例教学十:以胰腺癌为例,基于转录组学差异表达基因与深度学习模型进行药物重定位 | |
AI+Science | 学习目标:人工智能领域前沿内容,让大家了解最新的多组学与机器学习领域的研究动态,同时介绍几种更为先进的机器学习算法。 |
Ø 集成学习在多组学数据联合分析中的应用 Ø 多组学数据库在生物信息网络的挖掘与应用 Ø 生成模型在多组学数据的应用与挑战 Ø 影像组学进阶,弱监督学习进行影像组学数据自动标注与分类 案例教学十一:基于生成对抗模型进行单细胞转录组数据深度特征提取 |
部分案例图示:
向下滑动查看
单细胞多组学及空间组学数据分析与应用专题 | |
高通量测序数据,R语言,Linux操作系统 | 课程简介:本部分课程将带学员领略生物信息数据分析中三个重要组成部分的基本内容。 |
1. 高通量测序数据简介 2. R语言简介 3. Linux操作系统简介 | |
第一天上午 高通量测序数据分析 | 课程简介:了解第一、二、三代测序的原理及特点;将掌握高通量测序数据的预处理和质量控制方法;为生物信息数据分析打下基础。 |
1. 各代测序技术 Ø 各代测序技术概述和应用领域 Ø 各代测序技术原理及特点 2. 高通量测序数据预处理和质量控制 Ø 数据预处理流程:测序数据质量评估、去除低质量读段和适配序列 Ø 质量控制方法:质量分数分析、N碱基分析、K-mer分析等 3. 序列比对 Ø 序列比对方法 Ø 序列比对常用软件(STAR,BWA,TopHat2,Bowtie2) 4. 高通量测序数据可视化 Ø 可视化软件介绍(IGV,UCSC Genome Browser) Ø 高通量测序数据可视化实践 | |
第一天下午 Linux操作系统及R语言在生物信息学中的应用 | 课程简介:了解Linux操作系统和R语言在生物信息学中的重要性和应用;掌握基本的Linux命令行操作和R语言编程知识,为进一步探索生物信息学领域打下基础。 |
1. Linux环境搭建与基本操作 Linux发行版选择与安装、终端和命令行操作、文件与目录管理、权限管理与用户组等内容 2. Linux工具在生物信息学中的应用 Ø 文本处理与数据操作:grep、sed、awk等工具的使用 Ø 文件格式转换与处理:FASTA、FASTQ、SAM/BAM等格式的转换与解析 Ø Shell脚本编程:自动化分析流程的编写与批处理 3. R语言入门与基本操作 Ø R及Rstudio软件安装及介绍、 R语言基本语法介绍及常用命令 4. R语言在生物信息学中的数据处理与可视化 Ø 数据导入与清洗:读取和处理生物信息学数据 Ø 数据可视化:绘制基因表达图、热图、箱线图等 5. 项目实践: 高通量测序数据分析流程实践 | |
第二天上午 高通量多组学数据分析 | 课程简介:掌握基因组学、转录组学、表观基因组学和蛋白质组学等数据的分析流程和常用工具;将学习到不同组学数据的特点和分析方法;并通过案例分析,将所学知识应用于实际问题的解决和结果的展示。 |
1. 基因组学数据分析 Ø 基因组测序数据处理:比对、变异检测、SNP/InDel分析 Ø 基因注释和功能分析:GO注释、KEGG通路分析等 2. 转录组学数据分析 Ø mRNA-seq数据分析流程:基因表达分析、差异表达分析、富集分析等 Ø 非编码RNA-seq数据分析(microRNA,lncRNA) 3. 表观基因组学数据分析 Ø DNA甲基化分析:甲基化水平估计、甲基化差异分析等(methylKit) Ø 染色质可及性分析:ATAC-seq、DNase-seq数据分析等 4. 蛋白质组学数据分析 Ø 蛋白质鉴定和定量:质谱数据分析、蛋白质定量方法 Ø 蛋白质互作网络分析:STRING数据库、互作网络构建等 5. 数据整合和综合分析 Ø 多组学数据整合:整合不同组学数据进行综合分析 Ø 数据可视化和结果解释:图表绘制、结果解读 6. 项目实践和案例分析: 多组学数据分析项目流程实战与案例分享 | |
第二天下午 单细胞转录组数据分析 | 课程简介:了解单细胞转录组测序技术的原理和应用,掌握基于cellranger及Seurat的单细胞转录组数据分析流程,通过案例分析加深对单细胞转录组数据分析的理解,以便学员能够独立进行单细胞转录组数据分析研究工作。 |
1. 单细胞转录组测序技术简介 Ø 单细胞测序技术发展历程 Ø 常见单细胞转录组测序方法及其特点 Ø 基于cellranger的数据生成和原始数据分析流程 2. 数据预处理与质量控制 Ø 数据质量评估与过滤 Ø 标准化与归一化 Ø 批次效应校正 3. 单细胞聚类分析 Ø 标记基因识别 Ø 线性降维与非线性降维(PCA,TSNE,UMAP) Ø 聚类结果可视化与解读 4. 细胞身份注释 Ø 人工细胞身份注释方法 Ø 自动细胞身份注释方法(SingleR,SciBet,Cellassign) Ø 常用细胞身份注释数据库(cellmarker,Human Cell Atlas,PanglaoDB) 5. 单细胞转录组高级分析 Ø 细胞轨迹推断与发育分析(monocle) Ø 细胞通讯分析(cellphoneDB) Ø 肿瘤拷贝数变异分析(inferCNV) Ø 转录因子活性分析(SCENIC) 6. 单细胞转录组数据分析工具与资源介绍 Ø 常用单细胞数据分析软件及其特点 Ø 公共数据库与在线工具的利用 7. 案例分析及流程实践 单细胞转录组数据分析文章思路 单细胞转录组数据分析流程实践 | |
第三天上午 单细胞ATAC-seq数据分析 | 课程简介:深入了解单细胞ATAC-seq数据分析基本原理和常用方法,掌握基于cellranger-atac及Signac的单细胞ATAC-seq数据分析流程,并通过案例分析加深对单细胞ATAC-seq数据分析的理解,以便学员能够独立进行单细胞ATAC-seq数据分析研究工作。 |
1. 单细胞ATAC-seq简介 Ø 单细胞ATAC-seq技术的原理和应用领域 Ø 基于cellranger-atac数据生成和原始数据分析流程 2. 数据预处理与质控 Ø 数据格式与质量评估 Ø 细胞过滤方法 Ø 降维聚类(LSI) Ø 创建基因表达活性矩阵 3. 单细胞ATAC-seq核心数据分析 Ø 差异Peak分析 Ø Motif富集分析 Ø 转录因子足迹分析 4. 案例分析及流程实践 单细胞ATAC-seq数据分析文章思路 单细胞ATAC-seq数据分析流程实践 | |
第三天下午 单细胞多组学整合分析 | 课程简介:掌握单细胞多组学整合分析文章设计思路,并通过文章复现的方式使学员能够独立进行单细胞多组学实验设计及生信分析工作。 |
1. 单细胞多组学整合分析文章设计思路 2. 单细胞多组学整合分析文章解读 3. 单细胞多组学整合分析文章复现 | |
第四天上午 空间组学数据分析 | 课程简介:通过本部分课程,学员将了解到最新的空间组学概念和技术,掌握利用spaceranger和Seurat处理10X Visium空间转录组数据的方法。课程将通过案例分析展示如何使用单细胞数据和空间组学数据设计和实施最前沿的医学研究项目。将培养学员对空间组学数据分析和应用的理解和实践能力,并探讨空间组学在疾病研究和药物开发中的潜力和挑战。 |
1. 空间组学概述 Ø 空间组学概念和技术进展 Ø 空间转录组数据和图像数据的关系 2. 数据获取与预处理 Ø 10X Visium空间转录组测序技术简介 Ø 数据获取与质量控制 Ø 数据预处理和归一化方法 3. 空间组学数据分析 Ø 使用spaceranger和seurat处理空间转录组数据 Ø 空间基因表达模式分析与可视化 Ø 细胞类型鉴定与空间定位 4. 跨组学数据整合与分析 Ø 单细胞数据与空间组学数据的整合方法 Ø 跨组学关联分析和生物学解释 5. 案例分析及流程实践 基于空间组学数据的医学研究案例分析 空间组学数据分析流程实践 | |
第四天下午 AI基因组数据分析 | 课程简介:介绍生物信息学中常用到的机器学习和深度学习算法概念和基本原理,并探讨它们在基因表达数据、生物网络分析和高通量测序数据分析中的具体应用。该课程旨在培养学员应用算法解决临床医学问题的能力,并提高学员“医工”融合能力。 |
1. 机器学习与深度学习简介 Ø 机器学习和深度学习的基本概念和原理 Ø 监督学习与无监督学习 Ø 组学数据分析中常见的机器学习和深度学习算法 2. 机器学习和深度学习在基因组测序数据分析中的应用 Ø 三维基因组结构重建 Ø 染色质开放状态预测 Ø 基因组注释 Ø 基因编辑 3. 机器学习和深度学习在转录组测序数据分析中的应用 Ø 基因表达预测 Ø 可变剪接分类和预测 Ø 基因表达辅助诊断 4. 机器学习和深度学习在单细胞测序数据分析中的应用 Ø 数据降噪与去除批次效应 Ø 丢失数据补全 Ø 细胞聚类 Ø 细胞发育轨迹推断 5. 流程实践和讨论 AI基因组数据分析流程实践 讨论现有挑战和未来发展方向 |
04
报名须知
报名费用
(含报名费、培训费、资料费)
集成多组学数据的机器学习在生物医学中的应用:¥5600元/人
单细胞多组学及空间组学数据分析与应用:¥4300元/人
费用提供用于报销正规机打发票及盖有公章的纸质通知文件;
如需开具会议费的单位请联系招生老师索取会议邀请函;
增值服务
1、凡报名学员将获得本次培训电子课件及随堂全部案例代码资料
2、凡报名学员培训结束可获得本次直播课程全部无限次回放视频
3、价格优惠:
优惠一:2023年8月7日前报名汇款可享受400元优惠(仅限前八名);
优惠二:老客户参加或者推荐学员可享受额外优惠(具体请咨询招生联系人)
4、学员提出的各自遇到的问题在课程结束后可以长期得到老师的解答与指导;
5、参加培训并通过考试的学员,可以获得:北京软研国际信息技术研究院培训中心颁发的相关专题专业技能结业证书;
联系方式