ChIP-seq数据分析图表高级精选
ChIP-seq数据分析的终点,通常落在用一系列可视化图表解读表观修饰与基因调控的逻辑关系上。标准化分析流程繁多,但真正能在高水平论文中经得起推敲的图形,往往集中在那几种经典范式。这里从实战视角整理了一份可视化图谱,清晰梳理了每种分析对应哪种图形、用什么工具实现、图形长什么样、以及在文献中如何呈现。
1. 结合信号与靶基因表达量关联四分图 / 箱线图 (ChIP-seq vs RNA-seq Integration Plot)
这类分析的核心,是将ChIP-seq的修饰强度与RNA-seq的基因表达量进行联合分析,判断表观修饰的变化是否足以解释转录水平的差异。最常见的呈现形式是多组箱线图或散点趋势图,常用R包(如BETA、ZGSEA)实现。
文献中的典型做法是:将ChIP-seq peaks的信号值(或差异值)与对应基因的表达量(或差异表达值)绘制成散点图,直接观测相关性。举个例子:
图a分别展示了肝脏和囊胚中印记基因启动子区的H3K4me3信号强度(Log₂ RPM)与基因表达水平(Log₂ RPKM)的Pearson相关性。两个组织均表现出显著正相关,但囊胚中的相关系数更高(R=0.543 vs 肝脏的0.365),提示发育早期印记基因的H3K4me3修饰与转录活性的耦合更为紧密。图b进一步直接比较了同一批印记基因在两个组织间的修饰差异与表达差异,正相关性非常显著(R=0.693, P=0.00002),表明H3K4me3修饰的组织特异性变化能够很好地解释表达水平的差异。该案例来自Ishibashi等人的文章(Sci Rep, 2021)。
2. 基因表达调控网络图 (Transcriptional Regulatory Network Diagram)
当转录因子结合了大量靶基因,尤其是靶基因本身也是转录因子时,就需要构建调控网络来梳理上下游关系。网络拓扑图是标准工具,Cytoscape或Gephi是常用的绘图利器。
在文献中,中心节点代表研究的转录因子,连线代表ChIP-seq证实的直接结合关系。下面这张图就很有代表性:
图中a部分是Tead1附近多个转录因子的ChIP-seq信号轨迹;b部分是TSC(滋养层干细胞)特异性转录因子的调控网络。节点形状区分已知功能和未知功能的转录因子(圆形=已知,矩形=未知),颜色编码对应它们在分化过程中的表达模式分类。蓝色边框表示敲除后会导致胚胎致死的基因,斜体标出了具有自我调控作用的转录因子。图片来源:Lee等人, Nat Commun, 2019。
3. 关联分析堆叠条形图
这种图用来展示不同组蛋白修饰峰中,活跃/非活跃调控元件以及无元件区域的占比分布,并且按修饰强度四分位分层来看趋势。堆叠条形图很直观,R语言的ggplot2或Python的matplotlib/seaborn都能画,GraphPad Prism也行。
它在文献里通常作为表观基因组关联分析的补充结果,配合文字解说组蛋白修饰与非编码元件活性的关系。比如下面这张来自Narita等人(Nat Genet, 2023)的图:
百分百水平堆叠条形图展示了PINTS元件(激活态、非激活态、无状态)在三种组蛋白修饰(H2BK20ac、H3K27ac、H3K4me1)下的占比,并且按峰强度四分位数(Q1到Q4)分层。可以看到,对于激活型修饰(H2BK20ac、H3K27ac),修饰强度越高,PINTS-active元件占比越大,尤其是H3K27ac的Q3、Q4组几乎全是活跃元件。而增强子相关修饰H3K4me1虽然也有上升趋势,但整体活跃元件占比低于前两者,说明它与活跃PINTS的关联偏弱。
4. 增强子与超级增强子鉴定图 (Super-Enhancer Identification / ROSE Plot)
针对H3K27ac或Mediator(如Med1)的ChIP-seq数据,利用几何切线算法ROSE筛选超级增强子,是表观基因组学最经典的流程之一。对应的图是秩排序的曲率折线散点图,也叫“Hockey-stick Plot”。
X轴是按ChIP-seq信号强度从大到小排列的增强子排名,Y轴是富集信号总量。曲线后半段会出现陡峭的指数上升,切线斜率为1的点右侧的所有增强子(通常标红)就是超级增强子,核心癌基因(如MYC)往往出现在最右上角。
图A展示了基于输入标准化的H3K27ac信号识别SEs和TEs的过程。增强子按信号排序,拐点值≥1的区域定义为超级增强子(红点),其余为典型增强子(灰色)。图B是IGV截图,展示SE/TE调控基因位点的ChIP-seq信号密度。图片来源:Jiang等人, Comput Struct Biotechnol J, 2021。
5. 组蛋白修饰共定位组合热图 (Histone Modification Co-occurrence Heatmap)
将多种组蛋白修饰(如H3K4me1、H3K4me3、H3K27ac、H3K27me3)在同一结合位点上的信号并排展示,用来判断染色质的活性状态。DeepTools的plotHeatmap是标配工具,生成的多列对齐矩阵热图非常直观。
几个热图横向对齐:比如第一列H3K4me1,第二列H3K27ac,如果同一位点两列都有深色信号,就定义这个区域为活跃增强子。下面这个例子来自一种浆母细胞状态的研究:
图A展示了基于IRF4、BLIMP1、XBP1峰值并集进行k-means聚类后的ChIP-seq热图,并整合了CTCF、H3K4me3、H3K27ac信息,衍生出6个调控簇(U.K1-K6)。图B是这些簇的基因组分布(TTS、启动子、外显子、内含子、基因间区),图C则是各转录因子的结合占有率。聚类和热图一起看,就能知道不同调控簇的染色质特征。
6. 染色质状态转变矩阵图 (Chromatin State Transition Plot)
用ChromHMM(隐马尔可夫模型)把基因组划分为不同表观状态后,可以展示细胞分化或处理前后,全基因组区域状态的相互转换比例。常见形式是转移概率矩阵热图或桑基图。
行代表处理前的状态(如“不活跃启动子”),列代表处理后的状态(如“活跃启动子”),颜色深浅和数值表示转换百分比。桑基图则能直观看到不同状态间的流量。下面这张来自Hillje等人(Aging, 2022)的图很典型:
图A定义了年轻样本的染色质状态,左侧热图是各状态观察到特定组蛋白修饰的概率,右侧热图是ChromHMM计算的富集值。图B是SD 3月龄(中心)、SD 12月龄(左侧)和CR 12月龄(右侧)之间的染色质状态转变桑基图。条块高度代表基因组覆盖率,一眼就能看出年龄和饮食干预对染色质状态的影响。
7. 表观基因组状态富集条形图 (Chromatin State Enrichment Bar Chart)
鉴定出的转录因子Peak主要落在哪些表观染色质状态里?这个问题就用富集倍数条形图或热图来回答。常用工具有ChromHMM、EpiCompare等。
X轴是各种表观状态(通常1-15个状态),Y轴是富集倍数(Log enrichment)。这张图来自Bennett等人(2024)关于非洲爪蟾表观遗传时钟的研究:
图A列出了ChromHMM自动化染色质状态注释的参数。图B展示了甲基化水平与年龄高度相关的CpG位点在不同染色质状态下的对数富集度。星号表示Fisher精确检验校正p值小于0.05,参考背景是所有测序覆盖度≥10的CpG位点。这种图能明确证明转录因子或修饰倾向于结合在哪种表观背景下。
8. 启动子-增强子相互作用网络图 (Promoter-Enhancer Interaction Loop Plot)
把ChIP-seq鉴定出的增强子/超级增强子,通过Hi-ChIP、ChIA-PET或Hi-C数据与远端靶基因启动子连起来,揭示三维基因组空间上的调控关系。最常见的呈现方式是弧形连线图或轨道图,WashU Epigenome Browser是利器。
在基因组浏览器下方,彩色的半圆弧线把几百kb之外的ChIP-seq峰(增强子)和TSS(启动子)连起来,代表空间物理接触。下面这个例子(来源:Gaffney实验室汇报PDF)清晰展示了这一思路:
图上H3K27ac HiChip数据与H3K27ac ChIP-seq叠加,HiChIP提供了H3K27ac介导的环互作(Loop)信息。图中明确看到TNFAIP3基因上的自身免疫疾病SNP位点,以及它和上下游基因IL22RA、IFNGR1之间的远距离互作。
9. 拓扑敏感结构域(TAD)边界ChIP信号图 (ChIP-seq Signal around TAD Boundaries)
研究CTCF、Rad21等结构蛋白在TAD边界处的富集特征,用的就是边界对齐的元基因谱图。DeepTools或Juicer生成这类图,X轴中心是TAD边界,向两侧延伸,Y轴是ChIP信号强度。CTCF的信号会在边界中心形成极为尖锐的单峰,验证其“绝缘子”屏障功能。
下面这张图来自Su等人(J Biol Chem, 2021)关于HoxA基因座的研究:
图A是胚胎干细胞中HoxA基因座周边的Hi-C互作图谱,蓝色虚线框标出TAD边界区域。图B是IGV截图,展示CTCF、MED1、MED12、YY1的ChIP-seq信号;CTCF的信号遍布整个基因座,HoxA下游有多个结合位点。图C和D分别展示H3K27ac、H3K4me1、H3K4me2、H3K4me3以及Pol II、ATAC-seq、DNase I信号。蓝色竖线标注的是距离HoxA基因3'端最近的CTCF结合元件(CBE 47),可以看到它在维持TAD结构和调控HoxA表达中扮演关键角色。
这九类图形基本覆盖了ChIP-seq下游分析中从修饰-表达关联、网络调控、增强子鉴定、状态转变到三维基因组的所有核心可视化需求。实际做研究时,根据数据特点和科学问题选对图型,再配合清晰的图例说明,文章的可读性和说服力会明显上一个台阶。