人脑成像转录组学(Imaging Transcriptomics)学习
参考此综述:Toward Best Practices for Imaging Transcriptomics of the Human Brain
根据综述中的大标题,这一类的研究可以分为以下 三个部分 ,分别进行介绍。相应的,选择的工具包也是根据文献中图6的推荐。
我认为这篇综述中介绍的三个研究步骤中,第二个步骤是最重要的,因为PHASE 1和PHASE 3不只是适用于神经影像数据,是研究基因表达和其他样本数据时也会面临的问题。而 PHASE 2 是针对神经影像数据。
PHASE 1: PROCESSING TRANSCRIPTIONAL ATLAS DATA
这一部分在作者之前的另一篇综述中进行了详细介绍: A practical guide to linking brain-wide gene expression and neuroimaging data
总之,这一步最后可以生成一个 region-by-gene expression matrix
PHASE 2: RELATING EXPRESSION AND NEUROIMAGING MEASURES
文献中提到了三种分析方法,提供了不同的研究方向
1. GCE(基因共表达,Gene Coexpression)
从region-by-gene矩阵得到gene-by-gene矩阵(分析每对基因在各个region的表达是否具有相关性)
但是因为多重比较的原因,一般会用 weighted gene coexpression network analysis (WGCNA,加权基因共表达网络分析) 的方法进行分析。这种方法在生信中常用,分析基因表达和其他样本性状。我之前没有了解过这种方法,但是个人认为这种分析方法对于器质性疾病的意义不大。
WGCNA的基本思想就是对gene-by-gene矩阵进行聚类以降维,这样可以大幅减少多重比较的次数。得到了gene-by-gene矩阵后,计算Topological Overlap Matrix (TOM)这种邻近矩阵,再用层次聚类 (Hierarchical Clustering)生成基因的聚类树 (dendrogram),然后用dynamic tree cut进行聚类(在这里一般称为“模块 (module)”)。由于每个模块包含多个基因,每个模块再通过奇异值分解计算一个特征值 (eigengene),用于后续和其他样本数据进行统计分析。
以这篇文章为例 Cell-Type-Specific Gene Modules Related to the Regional Homogeneity of Spontaneous Brain Activity and Their Associations With Common Brain Disorders ,这里只探讨其前半部分(后半部分进行富集分析,是PHASE 3的内容)
也就是说,影像数据是一个284×1的zReHo值(因为要对被试求平均),基因数据是30个284×1的eigengene值(因为有30个模块)
这篇文章WGCNA的结果主要在图2中(文章还用到了3个不同的数据集)。对30个模块,每个模块都和zReHo数据进行相关性分析。
这样就发现,zReHo这种指标在新皮质区域的分布,和特定的基因表达模式是相关的。
1. RGE(区域基因表达,Regional Gene Expression)
选定一些基因或基因组,然后和影像数据一起分析
先看文章得到的结果(文献图3)
发现在SZ人群中,厚度变化和单核细胞基因的表达有关。具体看图(B)的第一幅(下方HC的图肉眼只能分辨出明显的32个数据点,不清楚为什么少2个),横坐标是厚度变化,纵坐标是基因表达,一共34个数据点,每一个数据点代表了1个皮层区域。
也有用 偏最小二乘(PLS) 的方法分析加权的基因表达(不太理解?)
PHASE 3: EVALUATING GENE SPECIFICITY AND ENRICHMENT
这里作者分成两种研究类型进行了介绍
Hypothesis-driven(假设驱动)
这种研究需要说明的问题是:例如,根据假设,一个(或一组)基因可能和某种影像指标的分布有关,因此进行了相关性分析并证明了二者的相关性(指标高的区域,基因表达也高),临床意义在于验证了基因作为潜在机制。但有可能其他很多基因也和这种影像指标是相关的。
作者提到了这篇文章 Statistical testing in transcriptomic-neuroimaging studies: A how-to and evaluation of methods assessing spatial and gene specificity ,详细介绍了gene specificity对结果的影响(还没有细看)。总是,spatial autocorrelation和gene specificity都是需要考虑的问题,否则假阳性率高。
上面介绍过的这篇文章 Combined Connectomics, MAPT Gene Expression, and Amyloid Deposition to Explain Regional Tau Deposition in Alzheimer Disease ,好像就考虑了gene specificity的问题。正文第7页中就说明了虽然该研究是MAPT基因假设驱动的研究,但也计算了所有基因和蛋白样蛋白SUVR的相关性,发现MAPT和淀粉样蛋白SUVR的相关性值(correlation scores)是靠前的,在另一亚组中同样如此。
Data-driven(数据驱动)
在数据驱动的研究中,得到了一组基因和影像数据相关,那么就会去印证是否是特定功能的一类基因和影像指标相关(因为数据驱动的聚类/模块还没有得到有意义的解释)。
可以使用 gene category enrichment analyses (GCEAs) 的方法。即已经得到的基因功能标注,如GO、KEGG。