13985521468

定义人类基因组中的功能性DNA元件

2019-06-10 20:52:17

来源:亚博体育首页登录 作者:

  随着人类基因组序列的完成,注意力转向识别和注释其功能性DNA元件。作为遗传和比较基因组学方法的补充,启动了DNA元素项目百科全书,以提供许多细胞类型中RNA转录物,转录调节因子结合位点和染色质状态的图谱。得到的全基因组数据揭示了具有高位置分辨率和细胞类型特异性的生化活性位点,这有助于研究基因调控和与人类疾病相关的非编码变体的解释。然而,生物化学活性区域覆盖了比进化保守区域大得多的基因组,提出了非保守但生物化学活性区域是否真正起作用的问题。这里,我们回顾了用于定义功能性DNA片段的生化,进化和遗传方法的优势和局限性,观察到的估计基因组覆盖率差异的潜在来源以及这些差异的生物学意义。我们还分析了信号强度,基因组覆盖率和进化保护之间的关系。我们的结果强化了每种方法提供补充信息的原则,并且我们需要使用所有三种方法的组合来阐明人类生物学和疾病中的基因组功能。我们还分析了信号强度,基因组覆盖率和进化保护之间的关系。我们的结果强化了每种方法提供补充信息的原则,并且我们需要使用所有三种方法的组合来阐明人类生物学和疾病中的基因组功能。我们还分析了信号强度,基因组覆盖率和进化保护之间的关系。我们的结果强化了每种方法提供补充信息的原则,并且我们需要使用所有三种方法的组合来阐明人类生物学和疾病中的基因组功能。

  完成人类基因组参考序列是现代生物学的里程碑。剩下的相当大的挑战是确定和描绘所有基因和其他功能元素的结构。很快就认识到,构成人类基因组的约33亿个核苷酸中有近99%不编码蛋白质(1)。比较基因组学的研究显示,大多数的哺乳动物保守和最近适于区域由非编码元件(2 - 10)。最近,全基因组关联研究表明,大多数性状相关的基因座,包括那些有助于人类疾病和敏感性的,也位于外蛋白质编码区(11 - 16)。这些发现表明,人类基因组的非编码区域具有丰富的功能重要元件,具有不同的基因调控和其他功能。

  尽管迫切需要识别和表征人类基因组中的所有功能元素,但重要的是要认识到对于什么构成功能没有普遍的定义,也没有就什么设定元素边界达成一致。科学家和非科学家都有一个直观的功能定义,但每个科学学科主要依赖于指示功能的不同证据。遗传学家,进化生物学家和分子生物学家应用不同的方法,评估不同的和互补的证据线。遗传方法评估扰动的表型后果,进化方法量化选择性约束,生化方法测量分子活动的证据。所有三种方法都可以提供基因组区段的生物相关性的高度信息,并且通过每种方法鉴定的元素组通常彼此定量地富集。然而,这些方法在它们预测的特定元素和每个人注释的人类基因组的范围方面差异很大

  这些差异中的一些源于这样的事实:生物化学和遗传背景中的功能对细胞类型和条件非常特殊,而对于进化测量,功能是独立于细胞状态确定的,但取决于环境和进化生态位。这些方法在假阳性和假阴性率,元素定义的分辨率以及可以调查它们的吞吐量方面也存在很大差异。此外,每种方法仍然不完整,需要持续的方法开发(实验和分析)和越来越大的数据集(其他物种,分析,细胞类型,变体和表型)。因此,这些方法在它们识别的特定元素方面差别很大,这并不奇怪。然而,

  显示为具有官能证据冲突的线元件的许多例子DNA元件(ENCODE)项目,包括具有保守的表型,但缺乏序列级保护(元件的百科全书之前被描述17 - 20,保守的无表型元件)上删除(21,22),和能够驱动的组织特异性表达,但缺乏进化保守性(元件23,24)。然而,ENCODE项目生化活动调查(跨越更多细胞类型和分析)的规模导致基因组覆盖率显着增加,从而加剧了生化和进化估计之间的差异。这种差异导致了在科学文献很多争论都(25 。 。 。 。 。 - 31),并在网上论坛,从而重新需要澄清在人类基因组定义功能的挑战,并认识差异的来源。

  为了满足这一需求并提供ENCODE科学家的观点,我们审查了遗传,进化和生物化学证据,讨论了它们的优势和局限性,并研究了不同方法得出的结论之间的明显差异。

  遗传方法依赖于序列改变来建立DNA片段的生物学相关性,通常被认为是定义功能的金标准。突变可以是天然存在的和通过筛选由序列产生表型鉴定变体(13,32)或通过定向遗传方法(试制33)或非遗传干扰(34)。在细胞系(使用报告基因测定转染研究35,36)或胚胎(37)还可用于识别监管要素并衡量其活动。遗传方法往往通过适度的吞吐量的限制,虽然速度和效率现在正在增加对于一些方法(36,38 - 40)。该方法还可能遗漏其表型仅出现在稀有细胞或特定环境背景中的元素,或者其效果太微妙而无法用当前测定法检测。功能丧失测试也可以通过功能冗余来缓冲,使得表型后果需要双重或三重中断。与冗余,上下文或微妙功能一致,大型和高度保守的基因组片段的删除有时没有可辨别的生物体表型(21,22),并且在被认为是必不可少的基因似乎衰弱突变在人群中(已发现41)。

  比较基因组学提供了一种检测非编码功能元件的强大方法,这些功能元件在进化时间内表现出优先保守性。相关物种之间的高水平序列保守性指示纯化选择,由此排斥破坏性突变,相应的序列被认为可能是功能性的。功能的证据也可以来自物种之间或特定谱系内的加速进化,揭示了最近获得的增加适应性的变化的正选择元素; 这种方法通过合并多个密切相关的基因组来获得能力,因为每个物种提供有关序列约束的信息。多种类比较已被用于研究不同的进化枝,从酵母到哺乳动物。3,42 - 48)。比较基因组学方法还可以包含关于突变模式的信息,突变模式可以是不同类型元素的特征。

  虽然功能强大,但进化方法也有局限性。保守区域的鉴定取决于准确的多物种序列比对,这仍然是一个重大挑战。比对通常是用于远端式作用调节区,在那里它们可通过调节基序周转受到阻碍效果较差,改变间距的限制,和序列组成偏差(17,49)。分析对齐区域进行保护可能同样具有挑战性。首先,大多数转录因子结合序列是短的并且高度简并,使得它们难以鉴定。其次,由于中性进化元素的检测需要足够的系统发育距离,该方法非常适合检测哺乳动物保守元素,但对灵长类动物特异性元素效果较差,对人类特异性元素基本上是盲目的。第三,某些类型的功能元件如免疫基因即使在密切相关的物种中也可能易于快速进化转换。更一般地,比对方法不适合捕获保留功能的取代,例如保留RNA结构的补偿性变化,在调节基序内保留亲和力的取代,或通过冗余或上位效应缓冲其效果的突变。因此,缺乏保护不能被解释为缺乏功能的证据。

  最后,尽管进化方法的优点在于它不需要先验知识DNA元素的作用或何时使用,但不太可能揭示选择下的分子机制或相关的细胞类型或生理过程。因此,比较基因组学需要补充研究。

  用于鉴定候选功能基因组元件的生物化学方法补充了其他方法,因为它特异于细胞类型,条件和分子过程。基因调控和RNA代谢的详细研究的数十年来定义的功能的非编码的元素,包括启动子,增强子,沉默子,绝缘体和非编码RNA基因如微RNA,了piRNA,结构的RNA,和调控RNA(的主要类别50 - 53)。这些非编码功能元件与该显示组蛋白修饰,DNA甲基化,DNA酶可访问性,和转录因子占用(的签名模式鲜明的染色质结构相关联的37,54 - 66)。例如,活性增强子通过特异性组蛋白修饰和DNase可接近的染色质标记,并且被序列特异性转录因子,共激活因子如EP300以及通常RNA聚合酶II占据。尽管个体特征对功能的贡献程度仍有待确定,但它们为注释候选增强子和其他类型的功能元件提供了有用的替代。

  ENCODE报告正式成立,在高分辨率系统绘制人类基因组的功能元件,并提供此信息作为研究界(一个开放的资源目标67,68)。到目前为止,项目中的大多数数据采集采用了生物化学方法,利用作用于DNA片段的细胞或酶促过程的证据来帮助预测不同类别的功能元件。最近完成的ENCODE阶段在全基因组范围内应用了广泛的生化分析来研究多种人类细胞类型(69)。这些分析鉴定了基因组序列(i),其中转录了核和细胞质的短和长RNA; (ii)由序列特异性转录因子,辅因子或染色质调节蛋白占据; (iii)以可及的染色质组织; (iv)以DNA甲基化或特定组蛋白修饰为标志; (v)通过远程染色体相互作用物理聚集在一起。

  这种功能基因组学证据的一个优点是它揭示了在给定细胞类型和活动状态下每个位点涉及的生化过程。然而,生化签名通常是功能的结果,而不是因果关系。它们也不总是确定性的功能证据,但可以随机发生。例如,GATA1在某些红细胞特异性增强子上的结合对功能至关重要,它占据了许多其他基因组位点缺乏可检测的增强子活性或其他生物学功能证据(70)。同样地,尽管增强剂强烈特性组蛋白修饰有关,这样的修改的功能意义仍不清楚,和增强子状签名的单纯的存在并不一定表示一个序列用作特定功能(71,72)。简而言之,尽管生物化学特征对于在所检查的细胞类型的生物学背景中鉴定候选调节元件是有价值的,但它们不能被解释为其自身的功能的确定证据。

亚博体育首页登录