EN 生科百年 内网 新内网

检测到您当前使用浏览器版本过于老旧,会导致无法正常浏览网站;请您使用电脑里的其他浏览器如:360、QQ、搜狗浏览器的极速模式浏览,或者使用谷歌、火狐等浏览器。

下载Firefox

Advanced Science | 苏晓东课题组揭示短序列锚定元件AE在DNA与蛋白质结合中的重要作用

日期: 2025-03-31

转录因子(TFs)作为基因表达的“指挥家”,通过与双链DNA(dsDNA)上的特定序列—转录因子结合位点(TFBS)结合,来调控基因的转录。传统TF与dsDNA的结合序列的确定实验是由DNA酶切的“足迹”(Foot-printing)法获得。借助“足迹”法,科学家发现了很多不同DNA结合序列,即Motifs。 随着基因组学的发展,成千上万个TFs已被确定出来。如何高效、准确地识别和刻画TF的TFBS,特别是理解这些不同的TFs是如何快速靶向其特异结合位点,一直是分子生物学家探索的难题之一。科学家相继开发了ChIP-seq方法及其多种现代版本、SELEX 及其HT-SELEX (high-throughput systematic evolution of ligands by exponential enrichment)方法和PBM (protein binding microarray),以及MITOMI等单分子实验进行体内和体外实验来探索该问题。 在计算方面,通常采用位置权重矩阵(PWM)来描述和计算TFBS Motif的特征,但PWM方法假设碱基间相互独立,得到Motif(通常长度在8­‑10 bp)受实验方法和序列比对的影响并不一致,且该方法只能从序列的角度总结TF的特异性结合规律,无法从物理机制角度来解释TF如何高效识别并结合到目标位点。近年来的研究还表明,TF在基因组中的搜索过程可能受到TFBS周围重复简并序列的引导。基因组中普遍存在的短串联重复序列(STRs;2‑6个碱基对的串联重复)在转录调控中也发挥着重要作用。然而,这些DNA结合方式的具体机制细节仍不清晰,也很难用传统的Motif概念来解释。

2025年3月26日,生命科学学院/生物医学前沿创新中心(BIOPIC)苏晓东课题组在Advanced Science上在线发表了题为DNA–Protein Binding is Dominated by Short Anchoring Elements的研究论文。该研究揭示了TF与DNA结合时短序列(3-4个碱基对)起到主导作用,并将该短序列命名为锚定元件(Anchoring Elements, AEs)。论文还指出AE的密度(AED)能够吸引相应TF并促进其进一步搜索并结合到其TFBS上。

研究团队此前已经基于二代深度测序技术(NGS)开发了一种全面测量热平衡态下TF与所有可能的DNA序列的结合能力的实验方法KaScape(Chen, H., Xu, Y., Jin, J. et al. Sci Rep 13, 16595 (2023))。本研究进一步以拟南芥WRKY1和人类PU.1等转录因子为模型,利用KaScape方法系统分析了TF与DNA的结合特性。研究发现,结合能力较强的序列中均含有一段共有的3-4个碱基对的短序列且只要含有该短序列,其结合能力均较强,这说明该短序列在TF与DNA的结合中起决定性作用。由此,本研究将该短序列命名为锚定元件(Anchoring ElementAE。拟南芥WRKY1的AE为GAC/GTCGACGTC为反向互补序列),而人类PU.1的AEs为GGAA/TTCCGGAATTCC为反向互补序列)。为了进一步验证AEs的作用,研究团队开发了AEEscape算法。该算法能够计算随机序列区域每个位置的k-mer结合能量,将PWM从1-mer拓展到了k-mer。该算法发现,以WRKY为例,当短序列长度为2时,各个位置的2-mer结合能全景图不一致;当短序列长度为3时,各个位置的结合能全景图类似,GAC或者GTC在随机区域的各个位置的结合能力均最强;当短序列长度为4时,随机区域各个位置的结合能力最强的那些4-mer序列均含有GAC或者GTC。以上分析客观系统地说明了AE是TF与DNA结合时的最核心、最基本的元件。本研究随后使用AEEscape算法得到的k-mer能量全景图预测了基因组中TFBS区域的能量谱,发现在TFBS区域存在“能量漏斗”现象,该现象的存在说明TFBS周围的序列能够帮助TF快速搜索到其目标位点。进一步研究发现,该现象与TFBS附近AE的密度有关。

图1. WRKY1 N端DNA结合结构域(WRKY1N)与DNA的复合物结构(6j4e.pdb)。WRKY1N覆盖的区域(Foot-printing or Motif region)用蓝色双箭头标出,结合时起主导作用的短DNA序列Anchoring Element(AE)对应的碱基由蓝框标注。两条DNA链分别标注为Watson strand和Crick strand。对于WRKY1N来说,其主要与Crick strand上的GTC(AE)相互作用。

为了探究AE的广泛存在性,本研究还进一步分析了公共数据库中相应TF的PBM数据。结果发现了非常有趣的相似现象,验证了AE的广泛存在性。本研究中鉴定的AEs与DNA-蛋白质复合物结构研究中描述的“核心序列”很好对应(图1),复合物结构可以解释结构的稳定性及相互作用的细节,但是目前的计算方法还无法很好得到结合能,因而不能确切鉴定到最小相互作用单元的必要的核心序列。这些核心序列代表了参与静电、氢键、范德瓦尔斯等相互作用的关键碱基。这些相互作用对于DNA与TF结合的热力学稳定性和“特异性”至关重要,只要这些“核心”碱基存在于实验的序列中,KaScape方法即可以将其拉下来(pull-down), 因此,与本研究中的AEs类似,这些“核心序列”较短,一般远小于Motif长度。综上所述,AE可以被视为负责TF结合的最小结构(序列)单元,也表明构成AE的短k-mer序列与TF相互作用时,应被视为一个整体,而不是独立的碱基。由于仅从复合物结构无法准确计算出结合能,基于结构来定义“核心序列”具有一定的主观性和随意性,而KaScape实验的pull-down富集结果客观地得到了这些“核心序列”在DNA结合机制中起关键作用的客观而重要的结论。

这项研究不仅为TF与DNA结合的分子机制提供了全新的视角,还为基因表达的调控研究开辟了新的方向,为未来设计基因调控工具和开发基因治疗策略提供了重要的理论基础。陈红博士为论文的第一作者。北京大学生命科学学院/生物医学前沿创新中心苏晓东教授为该论文的通讯作者。研究团队未来将进一步探索AEs在更复杂生物系统中的作用,例如在染色质环境下TF与核小体DNA的相互作用,以及多TF协同调控基因表达的机制。这些研究将有助于更深入地理解基因调控的复杂性,并为生物信息学、精准医学和合成生物学提供新的工具和方法。


论文链接: https://advanced.onlinelibrary.wiley.com/doi/full/10.1002/advs.202414823