在DNA分子中,那些包含有遺傳編碼,能夠編碼蛋白質(zhì)產(chǎn)物的片段叫做結(jié)構(gòu)基因。高等真核生物的結(jié)構(gòu)基因多為一種“斷裂基因”(split gene)。一個(gè)斷裂基因中含有幾個(gè)編碼序列,叫外顯子( exon),基因的編碼序列被一個(gè)個(gè)插入的非編碼序列隔開,這些間隔序列叫內(nèi)含子(intron)。例如:人血紅蛋白p珠蛋白基因全長(zhǎng)1700bp,編碼146個(gè)氨基酸'基因包 含3個(gè)外顯子和2個(gè)內(nèi)含子。不同基因外顯子的數(shù)目有多有少,最多的可有40多個(gè),如膠原蛋白基因。基因轉(zhuǎn)錄時(shí),內(nèi)含子與外顯子均被轉(zhuǎn)錄成初級(jí)mRNA,然后要經(jīng)過剪接去除內(nèi)含子部分,成熟的mRNA只保留有外顯子的信息。分析結(jié)構(gòu)基因內(nèi)含子,發(fā)現(xiàn)有一共同的特征,即5,端總是以GT開始,3,端總是以AG結(jié)束,這些特征可能是mRNA剪接加工的信號(hào)。 值得注意的是真核基因中非編碼序列占有比例一般要比編碼區(qū)大。例如:p珠蛋白基因編碼 146個(gè)氨基酸,只需要438個(gè)核苷酸長(zhǎng)度編碼,僅占1700bp基因長(zhǎng)度的25.8%。人類第四因子基因長(zhǎng)186kb,有26個(gè)外顯子和25個(gè)內(nèi)含子,編碼2552個(gè)氨基酸,該基因中編碼序列只占全基因的4%。
在基因的3′端和5′端還有一些特殊的短序列,可能對(duì)基因的轉(zhuǎn)錄和翻譯起到調(diào)控作用。例如:在基因的上游25~ 30bp處含有TATA框,是轉(zhuǎn)錄的起點(diǎn),能提供RNA聚合酶識(shí)別轉(zhuǎn)錄起點(diǎn)的信號(hào)。在基因3,端的下游有一個(gè)AATAAA序列,是多聚腺苷酸附加信號(hào)。另外在第一外顯子上游有前導(dǎo)序列,最后外顯子下游有尾隨序列,均為非編碼序列,能被轉(zhuǎn)錄,但不翻譯?;蜣D(zhuǎn)錄起始點(diǎn)上游有啟動(dòng)子序列,可能遠(yuǎn)距基因起點(diǎn)lkb,但它對(duì)基因轉(zhuǎn)錄起重要的調(diào)控作用。