查看原文
其他

生信小技巧系列第一季完结版视频教程学习笔记分享

生信技能树 生信技能树 2022-06-06

耗费半年的时间精心制作了成套的生物信息学入门视频教程,并且在生信技能树联盟平台发布了这个长达74个小时全套生物信息学入门视频:生信技能树视频课程学习路径,这么好的视频还免费!

在B站看了看,大家学的热火朝天, 接下来我们就一个个知识点进行专题介绍,主要是一些优秀学生的笔记分享,希望大家在学习的过程中也能吸收到我传达的学习经验,人生感悟,只要你发给我笔记(邮箱 jmzeng1314@163.com),就有惊喜!

专题历史目录:3个学生的linux视频学习笔记
生信人应该这样学R语言系列视频学习心得笔记分享一万人陪你学习GEO数据库挖掘知识(公益视频听课笔记分享)
公共数据库挖掘视频学习心得体会
接下来介绍生信小技巧:



【生信技能树】生信小技巧系列课程

(第一季已完更!~)#重制版#



1. R爬取生信软件列表到思维导图
  • 了解并安装R

  • 了解Html网页到源代码dom结构

    • Html基础知识

    • Html DOM教程

    • 谷歌浏览器右键查看源代码

  • 爬取数据

    • 了解目标网站

      • 获取数据

      • 提取字符串

        • H2

        • H3

    • 获取第一级检测的软件分类信息

    • 爬取第二检测到软件分类信息

  • 写爬虫,用思维导图展现出来



2. 为什么要用markdown做笔记
  • 什么是markdown

    • 编辑器Typora

  • 必备条件

    • 思路要清晰

    • 掌握语法

  • 优点

    • 方便传播

    • 帮助整理思路

  • 难点

    • ‍图片设置麻烦

    • 表格略微复杂

      • Excel制作完复制到markdown中

    • 渲染器稍微有差别

    


3. 系统性入门R语言
  • 为什么需要学R语言

    • 想画一个热图

    • 做GEO芯片数据分析

    • 各种统计分析,如生存分析,差异分析,lasso回归

  • 各种搜索渠道

    • 入门书籍

  • 了解并安装R

    • R及R studio

    • 安装一些必要的包,了解CRAN及bioconductor

      • 安装包(选择合适的镜像)

        • 去搜索安装代码

      • 加载包

      • 查看包的帮助文档

      • 获取当前工作区间 getwd()更改工作区间setwd()

      • 清除当前对象rm()

      • 安装包会遇到的错误:R包终极

      • R的包

  • 理解R语言与Excel表格在数据处理的异同点

    • 发Rdata给别人

    • 保存成csv

    • 读取文件进R语言,知道自己在哪里

  • 明白R中的变量

    • 向量和因子

    • 数据框

    • 列表

    • 数组

  • 了解变量的基础操作函数

    • 变量怎么来,对它们处理什么

    • 凡是英文单词,都是一个函数

  • 数据对象的高级操作

    • 查看函数特性

    • 高级转换

      • apply系列函数

      • aggregate

      • split

      • dyplyr

      • reshape2

    • 字符串对象操作

  • 高级分支

    • 统计学

    • 可视化

    • bioconductor与生物信息学

    • shiny与网页

  • 创建自己的R包是学R语言的分水岭



4. 必学神器——IGV
  • 为什么需要用IGV(生物信息学数据格式  fastq-bam-vcf/gtf/bed)

  • 基础知识-测序原理

  • 测序基础

  • 准备工作:java环境设置

  • 讲义

    • NGS Visualization with the Integrative Genomics Viewer (IGV)

  • 下载软件

    • 谷歌搜索

  • NGS组学异同点

    • 有参组学(全基因组、外显子组学、转录组学、表观)

  • IGV.js

  • 一些疑问

    • 为什么一条reads(150bp)上面可以有高达10个错配呢

    • 为什么我们的reads会被soft clipping呢



5. 生信必备软件清单
  • 生信培训学员请注意

    • Notepad++.  (文本文件和非文本文件)等编辑器

    • xshell连接终端 命令上传服务器

    • Winscp    文件下载下来

    • Git的终端模拟器

    • everything查找文件

    • 其他生产力工具 everything, typora, 坚果云



6. 你可能需要学一点编程
  • 为什么学编程

  • 一个例子

  • 逻辑思维的获得

    • 解析需求

    • 熟悉语法

      • 读取文件

      • 默认变量,关键词

      • 按列拆分

      • 判断语句

      • 循环语句

    • 不停调试

  • 学什么语言

    • awk建议了解基础

    • perl建议不学

    • python强烈推荐

    • java等其他可以了解

  • 学习资源:纸质版书籍

  • 练习为王:生信编程实战

  • 生信编程200题

    • 生物编程直播



7. 从NCBI等数据库网站下载大批量原始测序数据
  • 生信工作者都在做什么

  • 使用代码 nohup 写循环

    • SRA数据库的规律

  • OSCC文章数据重新处理

  • 脚本下载

    • 了解url的规律

  • 数据处理



8. TCGA数据批量下载
  • 搜索公号 TCGA教程

  • 了解癌症类型

  • 会一些shell命令

  • 批量下载脚本

  • 提前下载好所有TCGA癌症数据



9. 生信基础资料大全
  • 生信工程师培训课程

  • 四大公开课

  • Perl, R, linux, Java



10. 生物信息学背景知识多吗



11. 生信技能树论坛
  • 生信技能树论坛-板块汇总



12. 外显子数据分析(外显子提取,占1%)
  • 收集整理201–2018年WES技术综述

  • 阅读超过5个公司的WES数据分析结题报告

  • 提取WES数据分析主干,绘制流程图,并且安装对应软件

  • 提取WES数据分析侧枝,了解更多扩展分析,并且安装对应软件

  • 两个遗传疾病家系WES数据分析实战

    • 需要了解临床应用,仔细阅读基因大讲堂全年知识点精华版

    • 了解自己的测序数据

      • 主要是fastqc, trim, galore, multiqc软件使用及结果解读

    • 了解参考基因组及注释信息

    • 比对

    • 找变异

    • 注释

  • 真正的流程

  • 一个全基因组重测序分析实战



13. 转录组数据分析
  • 了解RNA-seq实验环节

    • 实验设计

    • RNA提取和质量控制

    • cDNA合成

    • 文库构建

  • 了解RNA-seq应用

    • 蛋白质编码基因结构

    • 新型蛋白质编码基因

    • 基因表达的量化和比较

    • 表达数量性状基因座

    • 单细胞RNA-seq

    • 融合基因

    • 基因变异

    • 长的非编码RNA

    • 非编码小RNA

    • 扩增产物测序(ampli-seq)

  • 了解RNA-seq项目设计的一般原则

    • 推荐100-200M的PE75以上的reads, 重复大于6, 经费紧张的3个也行

  • 根据测序策略及各个分组是否有重复来实战

    • SE50无重复

    • FE150有重复

    • 等其他

  • 了解一些实战导读

    • 一个植物转录组项目的实战

    • 一个RNA-seq实战-超级简单-2小时搞定

    • 诺和公司报告

    • jimmy的GitHub

  • 目前主流的是表观调控和多组学

  • 数据处理的流程

  • 其他应用方向如何自学



14. CHIP-seq数据分析
  • Chip-seq数据重新处理

    • 下载sra并且转换为fastq

    • 使用R包对找到的peaks文件进行注释

    • homer软件来寻找motif

    • 下载软件及数据

    • 运行homer软件

  • 生信技能树教程大全一不小心就把ChIP-seq数据分析教程给写完了

  • 需求来源:作者并没有给peaks文件,想要利用这个数据,只能自己重新处理

  • 了解SRA数据库,下载作者的数据

    • the data in 

    • 做chip-seq的数据库包括examination of 4 different RNAPII modifications,(视频中有)

  • 使用R包找到的peaks文件进行注释

  • 找motif

  • 载入IGV看看效果

  • 其他代码进行下游分析



15. 都在开发软件吗
  • 生信工程师3大类

    • 售前售后技术支持

    • 应用项目研发-偏编程

    • 科研热点追踪

  • 生物信息学在各个领域的应用

  • 如果做应用项目研发领域的工具研发

    • 数据库探索工具

    • 基础软件的开发bwa, bowtie, 各种包complex-heatmap

    • 数据处理流程的开发hppRNA

    • 统计可视化接口

    • 交互式火自动化项目结题报告

  • 其他领域占绝大多数

    • 科研文章用ngs组学数据

    • 层出不穷的公共数据库挖掘



16. 分析结果的组织
  • 交互式自动化报告

    • 我用rmarkdown写过的教程(生信菜鸟团)

  • markdown及系列套件推荐 maftools: summarize, analyze, visualize MAF files 

  • php+css+html+js也可以,典型就是multiple

  • python的jupiter也可以

  • 基本就是pdf, html无缝连接,注意样式

    • 生信菜鸟团搜“报告”



17. meta分析
  • 至少先会R语言

  • 每个数据集综合分析,有专业背景

  • 有一些meta分析是阴性结果

  • 研究类型看视频范文



18. TCGA多组学数据分析
  • 通常是六种数据

    • Agliment/affymetrix mRNA芯片或者mRNA测序

    • Illumina DNA甲基化芯片

    • Affymetrix SNP芯片

    • miRNA测序或者芯片

    • 全外显子测序

    • 反向蛋白阵列技术

  • 代码和数据库看公号教程

  • 实验设计

  • 实验技术路线

  • 数据分析

  • 可视化分析结果



19. 台湾OCCC队列研究
  • 台湾OSCC癌症多组学[https://vip.biotrainee.com/d/396-oscc]

  • 外显子和转录组数据组合分析

  • 文章背景

  • 疾病背景

  • TCGA数据总结

    • 下载数据

    • 走肿瘤外显子流程

    • 走转录组流程

    • 下游分析



20. 单细胞转录组数据分析
  • 有转录组背景知识

    • 会linux

  • 分析公共数据的需求

  • 数据在——范例文献

    • wget

  • 转录组处理流程,得到表达矩阵

  • 比较不同的转录组表达定量软件

  • 10X流程

  • seurat流程

  • scater流程


21. 选取笔记分享平台

  • 新媒体插件

  • 复制URL链接

  • 发布素材方式

  • Cmd markdown

  • 代码编辑器


■   ■   ■


生信基础知识大全系列:生信基础知识100讲   

史上最强的生信自学环境准备课来啦!! 7次改版,11节课程,14K的讲稿,30个夜晚打磨,100页PPT的课程。   

如果需要组装自己的服务器;代办生物信息学服务器

如果需要帮忙下载海外数据(GEO/TCGA/GTEx等等),点我?

如果需要线下辅导及培训,看招学徒 

如果需要个人电脑:个人计算机推荐

如果需要置办生物信息学书籍,看:生信人必备书单

如果需要实习岗位:实习职位发布

如果需要售后:点我

如果需要入门资料大全:点我

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存