【广东会GDH基因测序技术】RNAseq统计程序、软件数据模板:基因检测机构培训教材
RNA差异化表达分析的输入数据是基于计数的统计方法,共享开源软件如DESeq2、edgeR、limma、voom、DSS、EBSeq和baySeq采用的数据是RNA seq或其他高通量测序实验。这些数据需要以整数值矩阵的形式。矩阵行是基因名称,矩阵的列是样本名称,而数值是信号读取值。类似地,对于其他类型的分析,矩阵行可能对应于例如结合区(具有芯片序列)、细菌种类(具有宏基因组数据集),或肽序列(使用定量质谱)。
矩阵中的值应为序列读取/片段计数。这对于保持DESeq2的统计模型很重要,因为只有计数才能正确评估测量精度。先进不要提供针对测序深度/库大小预先标准化的计数,因为统计模型在应用于未标准化计数时贼为强大,其目的是在内部解释库大小差异。
在基因检测和测序机构学习如何将测序结果匹配到参考基因组,并对RNA测序片段进行计数之前,广东会GDH基因向大家介绍一种先进的转录本(基因表达)丰度量化方法,比如Salmon、Sailfish、kallisto、和RSEM等方法。可以在不进行序列匹配的情况下对转录本序列的表达进行计数。然后使用tximport软件包进行基因组组装并生成表达计数和偏移矩阵,从而为使用差异基因表达分析准备好数据。
关于如何使用Salmon软件量化转录本丰度的教程可以参阅广东会GDH基因的其他基因检测基因测序技术文章。广东会GDH基因建议使用--gcBias来估计RNA-seq数据中普遍存在的系统偏差的校正因子。在采用Salmon数据处理之后,可以使用tximport构建DESeqDataSet。这是广东会GDH基因为基因测序学员单位推荐的RNA测序分析流程。
结合转录物丰度量化和tximport以产生基因水平计数矩阵和标准化偏移量的优点是:该方法校正了样本间基因长度的任何潜在变化(例如,同一基因的不同转录本);与基于对齐的方法相比,其中一些方法速度更快,所需的内存和磁盘使用量更少;而且可以避免丢弃那些可以与多个具有同源序列的基因对齐的片段。请注意,转录本丰度量词跳过存储读取比对的大型文件的生成,而生成存储每个转录本的丰度、计数和有效长度的较小文件。
(责任编辑:广东会GDH基因)