分子克隆技術(shù)通常特指基因克隆(gene cloning)或DNA重組技術(shù)(recombinant DNA technology)。基因克隆主要包括:①連接外源基因和克隆載體,構(gòu)建重組DNA分子,②將重組DNA分子轉(zhuǎn)入受體細胞,使外源基因隨受體細胞分裂而得以復(fù)制、繁殖。
一個典型的基因克隆實驗,主要有以下操作和結(jié)果:
(1)包括有目的基因在內(nèi)的DNA片斷插入另一個DNA分子(克隆載體,通常是環(huán)狀的),形成重組DNA分子。
(2)重組DNA分子通過轉(zhuǎn)化或其他類似的方法被導(dǎo)入受體細胞。大腸桿菌是使用較多的受體細胞。
(3)在受體細胞中,克隆載體指導(dǎo)重組DNA分子復(fù)制,產(chǎn)生許多完全相同的拷貝。
(4)當(dāng)受體細胞分裂時,重組DNA分子的拷貝進入子細胞,克隆載體的復(fù)制將在子細胞中繼續(xù)。
(5)大量分裂的受體細胞形成克隆:一個細胞群體,其中每個細胞都含有許多重組DNA分子的拷貝。
顯而易見,基因克隆是一個比較直觀而簡單的操作程序。它之所以具有非常重要的生物學(xué)意義,是因為這一技術(shù)可以為我們提供一個純粹的基因標本。通常,一個基因總是和細胞里其他基因同在。基因克隆技術(shù)誕生之前,我們根本無法純化單個基因,這意味著我們只能對基因群、而不是特定基因的結(jié)構(gòu)與功能進行研究和開發(fā)利用。
構(gòu)建重組DNA分子是基因克隆實驗的第一步,亦即,把環(huán)狀的載體在指定部位切斷,然后把含目的基因的DNA分子插入其中,再將兩者連接起來。這一過程需要兩種DNA操作酶:限制性內(nèi)切酶(restriction endonucleases)和連接酶(ligases)。
限制性內(nèi)切酶能夠識別DNA分子上的特定核苷酸序列,并在該處特異性切斷DNA分子。例如,PvuI(細菌Proteus vulgaris分離)只識別和切斷6核苷酸序列CGATCG;從相同細菌分離的PvuII,卻只識別并切斷CAGCTG。許多限制性內(nèi)切酶的識別位點是6個核苷酸,但是,也有識別4個或5個、甚至8個核苷酸順序的限制性內(nèi)切酶。此外,有些限制性內(nèi)切酶的識別順序可能不是唯一的,例如,HinfI可以識別并切斷GAATC、GATTC,GAGTC和GACTC。因此,通常也將HinfI的識別位點記為GANTC,N代表A、T、G和C中的任意一種核苷酸。
經(jīng)限制性內(nèi)切酶處理后的DNA分子斷端有兩種:平端和粘端,它們的性質(zhì)對基因克隆的實驗設(shè)計有重要影響。其中,具有不同識別位點的限制性內(nèi)切酶可以產(chǎn)生相同的粘端。例如,BglII(AGATCT)和BamHI(GGATCC)產(chǎn)生與Sau3A相同的GATC粘端。顯然,經(jīng)上述三種酶處理的DNA分子片斷之間均可以在相應(yīng)的斷端形成互補雙鏈。
DNA分子片斷通過粘端形成的堿基互補并不能使之相互連接,后一過程需要連接酶的催化作用。所有生物細胞中都產(chǎn)生連接酶,但是,基因克隆中最常用的是T4噬菌體的連接酶。連接酶催化相鄰核苷酸之間形成磷酸二酯鍵。由于平端不能使DNA片斷保持相互接近的位置,因而,和粘端相比,連接酶對平端DNA分子之間連接反應(yīng)的催化效率較差。
載體是克隆基因的關(guān)鍵組分,載體使重組DNA分子能夠在受體細胞中復(fù)制。質(zhì)粒和噬菌體是兩種天然的DNA載體。目前,能在不同受體細胞中使用的載體有數(shù)百種,其中,可以在大腸桿菌中使用的載體數(shù)目最多。
質(zhì)粒pBR322是一種典型的大腸桿菌克隆載體,它全長僅為4.3kb(通常,我們很難完整地分離和純化長度超過50kb的DNA大分子)。pBR322帶有兩種抗生素抗性基因:b -內(nèi)酰胺酶基因和四環(huán)素抗性基因,前者修飾并消除氨芐青霉素對大腸桿菌的毒性。通常,目的基因插入載體質(zhì)粒將破壞四環(huán)素抗性功能。因此,使用含有氨芐青霉素和四環(huán)素的培養(yǎng)基,我們可以鑒別大腸桿菌的轉(zhuǎn)化細胞:帶有重組質(zhì)粒的轉(zhuǎn)化細胞只能在含氨芐青霉素、不含四環(huán)素的培養(yǎng)基上生長;另一方面,原受體細胞不能在含有氨芐青霉素和四環(huán)素的培養(yǎng)基上生長;而有載體質(zhì)粒但沒有目的基因的轉(zhuǎn)化細胞能在含有氨芐青霉素和四環(huán)素的培養(yǎng)基上生長。另外,pBR322是一種松弛型質(zhì)粒,在培養(yǎng)液中加入氯霉素可以使轉(zhuǎn)化細胞中的質(zhì)粒拷貝數(shù)由通常的15個增至1000-3000個,此間,大腸桿菌的染色體并不復(fù)制。
實際上,現(xiàn)在經(jīng)常使用的許多質(zhì)粒載體不同于pBR322,除抗生素抗性基因之外,這些質(zhì)粒中的其他基因也可以作為選擇基因。例如,pUC8帶有氨芐青霉素抗性基因和LacZ/基因。由于目的基因的插入部位位于LacZ/基因之內(nèi),所以,甄別轉(zhuǎn)化細胞的操作變得更加直觀和簡單。質(zhì)粒能使轉(zhuǎn)化細胞在含有氨芐青霉素的培養(yǎng)基上生長,并且,如果同時添加LacZ/基因表達誘導(dǎo)物質(zhì)IPTG和LacZ/酶(b-半乳糖苷酶)的底物X-gal,那么,帶有目的基因的轉(zhuǎn)化細胞菌落呈現(xiàn)藍色,不含目的基因的轉(zhuǎn)化細胞菌落呈現(xiàn)白色。
在細菌中,噬菌體載體是另外一類常用的克隆載體。和質(zhì)粒不同的是,噬菌體載體通過感染過程即轉(zhuǎn)導(dǎo)進入宿主大腸桿菌細胞。通常,作為克隆載體的噬菌體,都經(jīng)過一定的突變和缺失處理。因此,這類噬菌體進入大腸桿菌細胞之后,并不像一般噬菌體那樣在宿主染色體上整合,而是直接進入裂解周期:大量復(fù)制噬菌體、裂解宿主細胞,最終在培養(yǎng)基上形成含有大量噬菌體拷貝的噬菌斑。
篩選帶有目的基因的噬菌體的方法多種多樣,例如,使用有LacZ/基因的噬菌體載體時,可以通過X-gal培養(yǎng)基上形成噬菌斑的顏色,區(qū)別帶有目的基因的重組噬菌體(重組子)和沒有目的基因的載體。有時,也可以簡單地通過轉(zhuǎn)導(dǎo)前后所形成的噬菌斑形態(tài)鑒別重組子。
和質(zhì)粒載體相比,噬菌體載體能夠克隆更長的DNA片斷。例如,pBR322及pUC8的質(zhì)粒中可以插入最長8kb的DNA片斷,載體等噬菌體則能克隆長達25kb的DNA片斷。
通常,大腸桿菌及其質(zhì)粒或噬菌體載體可以充分滿足分離和純化某些實驗用基因的目的。但是,我們有時需要用真核生物細胞而不是大腸桿菌細胞作為受體,例如,利用基因克隆控制和促進重要代謝產(chǎn)物(胰島素等)的合成、改變受體生物的特定性狀(將抗蟲特性導(dǎo)入糧食作物等),等等。這時,我們必須選擇適合于真核細胞的克隆載體。
酵母是基因克隆實驗中常用的真核生物受體細胞,培養(yǎng)酵母菌和培養(yǎng)大腸桿菌一樣方便。酵母克隆載體的種類也很多。其中,游離型質(zhì)粒YEps(yeast episomal plasmids)、整合型載體YIps(Integrative yeast vectors)和人工染色體YACs(yeast artificial chromosomes)是三種最具代表性的酵母克隆載體。YEps是一種罕見的真核細胞質(zhì)粒,大小2mm、長約6kb。YEps在細胞內(nèi)的拷貝數(shù)為70-200個。YEps的性質(zhì)和細菌質(zhì)粒載體非常相似,唯一不同的是轉(zhuǎn)化細胞的篩選方法。使用YEps時,主要通過受體細胞營養(yǎng)要求的變化鑒別轉(zhuǎn)化細胞與受體細胞。由于利用YEps克隆的基因容易在細胞繼代過程中丟失,因而,人們常用YIps替代YEps。不過,作為酵母菌的克隆載體,YIps的轉(zhuǎn)化頻率很低。另一方面,典型的YACs包括一個著絲點、兩個端粒、一個復(fù)制起點和幾個選擇標記基因,是一個微型染色體。YACs主要用于克隆長基因或包括數(shù)個基因序列的基因組DNA片斷。許多重要的動物基因往往含有多個內(nèi)含子、占據(jù)相當(dāng)長的DNA區(qū)域,而使用普通載體通常難以獲得完整的基因序列克隆。
在某些特殊的情形中,我們還需要選用動物或植物細胞作為克隆的受體細胞。例如,把克隆的基因?qū)爰Z食作物以改善其營養(yǎng)質(zhì)量等。常用的植物克隆載體主要是Ti質(zhì)粒及其衍生物;常用的哺乳動物克隆載體主要是一些由大腸桿菌質(zhì)粒或哺乳類病毒改建的載體。
基因文庫(genomic library)是一套包含特定生物體所有基因的DNA序列,其中,不同的DNA序列片段分別被克隆在適當(dāng)?shù)妮d體上。例如,人類基因文庫是一群帶有人類基因克隆的大腸桿菌細胞,我們可以從這個文庫中篩選、鑒定和研究任何人類基因。基因文庫包括由基因組DNA構(gòu)成的基因組文庫和由與mRNA互補的DNA構(gòu)成的cDNA文庫。cDNA文庫不含非轉(zhuǎn)錄的基因組序列(重復(fù)序列等)。從基因組文庫中篩選和鑒定目的基因主要方法是利用各種分子探針手段和DNA側(cè)序儀。
構(gòu)建基因文庫的基本方法是:(1)將特定生物體的基因組DNA或互補DNA分解成適當(dāng)長度的DNA片段,然后分別與克隆載體連接;(2)通過轉(zhuǎn)化或轉(zhuǎn)導(dǎo)的方法將帶有不同DNA片段的重組DNA分子導(dǎo)入受體細胞,獲得一套包含特定生物體所有DNA序列的克隆。成功構(gòu)建基因文庫的關(guān)鍵是選擇合適的純化、切斷DNA的方法和克隆載體,使所獲得的一套DNA序列克隆具有代表性、即不短缺任何DNA片段。例如,在構(gòu)建基因組文庫的過程中,如果某一段基因組DNA序列沒能被克隆,那么,該基因組文庫便不具有代表性。相似地,如果所建文庫中沒有足夠數(shù)量的克隆,那么,肯定會有某些基因缺失。當(dāng)然,一個完整的cDNA文庫也只包括那些與mRNA互補的DNA序列,缺乏不轉(zhuǎn)錄的DNA序列。
分離和純化真核生物基因組DNA時,通常采用蛋白酶分解和相抽提的方法除掉蛋白質(zhì)及脂類等其他大分子。基因組DNA片段化則主要采用物理剪切法和限制性內(nèi)切酶法。其中,用攪拌及超聲波等物理剪切法處理基因組DNA后,可獲得大量較短的DNA隨機斷片。另一方面,由于各種識別位點在基因組DNA上是非隨機分布的,使用不同的限制性內(nèi)切酶,可以獲得具有不同長度分布特征的DNA片段。常用的限制性內(nèi)切酶有Sau3A等。
構(gòu)建基因文庫中常用的載體有質(zhì)粒、噬菌體、粘粒(cosmid)以及YAC。這些載體可以克隆的DNA片段長度上限分別約為10、23、45和1000kb。選擇載體的主要參數(shù)是基因組大小,即基因組DNA序列的長短。例如,構(gòu)建大腸桿菌(4.6´ 106kb)等基因組較小生物的基因組文庫時,采用質(zhì)粒作為載體便可得到滿意的結(jié)果:按每個DNA片段平均長5kb計算,一個包括5000個DNA片段克隆的基因文庫就能夠代表一個完整的大腸桿菌基因組序列。構(gòu)建較大基因組的文庫時,噬菌體、粘粒以及YAC常被選作克隆載體。其中,EMBL3和lDASH等噬菌體的衍生物是構(gòu)建基因組文庫中使用最多的載體。
目前,有很多方法能夠幫助我們從基因文庫的眾多克隆中篩選和鑒定帶有特定基因的克隆,這些方法大多是以雜交探查技術(shù)(hybridization probing)為基礎(chǔ)的。雜交探測是一種利用能和目的基因序列互補的DNA或RNA片段為探針,通過分子雜交的手段找出帶有目的基因的DNA片段的實驗方法。
通常,為了從基因文庫中篩選出帶有目的基因的克隆,首先,需要將含有基因組DNA或cDNA克隆的菌落或噬菌斑轉(zhuǎn)移到硝酸纖維膜或尼龍膜等支撐物上。進一步,除去DNA以外的其他雜物,同時使DNA分子變性(雙鏈變?yōu)閱捂湥┎⒐潭ㄔ谥文ど稀W詈螅瑯擞洈M使用的探針,并使探針與支撐膜上的單鏈DNA分子雜交。通過檢測雜交膜上的探針信號,我們可以確定帶有目的基因的細菌或噬菌體的位置,最終選出相應(yīng)的基因克隆。
作為探針的DNA或RNA分子大多是根據(jù)已知的有關(guān)目的基因的某些信息(部分DNA序列或蛋白質(zhì)產(chǎn)物等)化學(xué)合成的寡核苷酸。另外,標記探針的方法也很多,例如,放射性元素標記、熒光色素標記以及酶標記等等。
測定DNA序列是決定基因精確結(jié)構(gòu)的唯一方法。DNA測序法主要有鏈末端終止法(chain termination method)和化學(xué)降解法(chemical degradation method)兩類。其中,鏈末端終止法目前使用得最為普遍。
由于DNA測序儀一次只能確定長500-1000bp的核苷酸順序,因此,通常需要在測序之前,對擬用于序列分析的基因克隆進行亞克隆制備(subcloning)和限制性內(nèi)切酶圖譜繪制工作:把從基因文庫中分離的帶有目的基因的DNA片段分成若干個小片段,分別克隆后再行測序;根據(jù)限制性內(nèi)切酶圖譜確定各個亞克隆DNA片段之間的關(guān)系,最終獲得完整的基因一級結(jié)構(gòu)信息。
國際DNA數(shù)據(jù)庫始建于20年前,主要負責(zé)收集、整理和交流各種已知DNA序列。近年來,特別是病毒、細菌、昆蟲以及人等多種生物的基因組計劃實施以來,大量的DNA序列數(shù)據(jù)正以前所未有的速度不斷積累和增多。
目前,國際DNA數(shù)據(jù)庫主要包括由歐洲生物信息研究所(EBI:European Bioinformatics Institute,英國劍橋)、美國國立生物技術(shù)信息中心(NCBI:National Center for Biotechnology Information,美國馬里蘭)和日本國立遺傳學(xué)研究所(NIG:National Institute of Genetics,日本靜岡)分別運營的EMBL數(shù)據(jù)庫、GenBank數(shù)據(jù)庫和DDBJ數(shù)據(jù)庫組成。它們共同制定和采用相同的數(shù)據(jù)庫管理程序,分別收集、整理并隨時交換最新DNA序列信息,定期公布這些信息。此外,所有生物學(xué)國際權(quán)威性學(xué)術(shù)刊物都要求投稿者事先在國際DNA數(shù)據(jù)庫登記擬發(fā)表的DNA、RNA或蛋白質(zhì)氨基酸序列,據(jù)1999年3月DDBJ的統(tǒng)計數(shù)據(jù)(表5-1),國際DNA數(shù)據(jù)庫紀錄的DNA數(shù)據(jù)總量已由1967年的121個堿基對躍升為1999年的23億個堿基對。
表5-1國際DNA數(shù)據(jù)庫(1999年3月)序列分類統(tǒng)計
序列分類
|
序列數(shù)目
|
堿基總數(shù)
|
人類
|
91,121
|
358,634,878
|
靈長類(人類除外)
|
4,977
|
3,800,669
|
嚙齒類
|
45,407
|
64,541,563
|
哺乳類(靈長類、嚙齒類除外)
|
17,687
|
16,485,760
|
脊椎動物(靈長類、嚙齒類和哺乳類除外)
|
26,047
|
25,252,856
|
無脊椎動物
|
41,925
|
158.325,369
|
植物
|
68,570
|
155,968,956
|
細菌
|
54,199
|
133,124,032
|
噬菌體
|
1,394
|
3,033,907
|
病毒
|
65,827
|
59,257,968
|
EST(Expressed Sequence Tag)
|
2,167,017
|
835,111,766
|
STS(Sequence-Tagged Site)
|
64,115
|
22,573,045
|
RNA
|
4,883
|
2,480,449
|
專利數(shù)據(jù)
|
134,612
|
42,349,047
|
其他
|
523,846
|
494,321,686
|
合計
|
3,311,627
|
2,375,261,951
|
按照生物進化的觀點,所有基因都是進化的產(chǎn)物。在不同生物種中,具有相同功能的基因通常來源于同一祖先基因。因此,這些基因(orthologous genes)彼此結(jié)構(gòu)相似。顯然,比較功能未知的基因和DNA數(shù)據(jù)庫中功能已知基因的序列相似性,我們有可能預(yù)測某些基因的功能。
目前,許多研究人員正在DNA數(shù)據(jù)庫的基礎(chǔ)上開發(fā)新的DNA信息庫及其利用系統(tǒng)。例如,NCBI的同源基因信息庫COG(clusters of orthologous groups)可以為人們提供詳細的同源基因分類和相應(yīng)的DNA順序特征;日本的反應(yīng)途徑信息庫KEGG(Kyoto encyclopedia of genes and genomes)則提供了一套能夠自動比較和預(yù)測基因在細胞中的功能的系統(tǒng)。
在依據(jù)DNA一級結(jié)構(gòu)預(yù)測基因功能方面,DNA數(shù)據(jù)庫的作用日益重要。