RefSeq NM_xxxxxx和GenBank Afxxxxxx看起來是重復(fù)的,但RefSeq和GenBank是分開的數(shù)據(jù)庫,而且兩者都是可以通過在Entrez nucleotide中輸入各自的ACCESSION獲得。開始時(shí)臨時(shí)的RefSeq記錄與GenBank記錄非常相似。但是,當(dāng)RefSeq記錄被專家review以后,新增的序列數(shù)據(jù)、生物學(xué)注解、和參考文獻(xiàn)常被加入。那時(shí),RefSeq條目(即序列)代表一個(gè)來自不同實(shí)驗(yàn)室的綜合信息,這時(shí)二者可以非常不同。
GenBank是一個(gè)多種序列的存儲(chǔ)池,對每個(gè)基因都含有許多序列。而RefSeq數(shù)據(jù)庫被設(shè)計(jì)成每個(gè)人類位點(diǎn)挑出一個(gè)代表序列來減少重復(fù),是NCBI提供的校正的序列數(shù)據(jù)和相關(guān)的信息。數(shù)據(jù)庫包括構(gòu)建的基因組contig、mRNA、蛋白和整個(gè)染色體。
RefSeq記錄是有三種可以獲得的狀態(tài):預(yù)測的,臨時(shí)的和檢查過的(reviewd)。檢查過的記錄代表了目前關(guān)于一個(gè)基因和它的轉(zhuǎn)錄子的知識(shí)的匯編。它們很多都來自于GenBank記錄、人類基因組命名委員會(huì)、和OMIM。RefSeq標(biāo)準(zhǔn)為人類基因組的功能注解提供一個(gè)基礎(chǔ)。
RefSeq記錄通過以下步驟創(chuàng)建:
1、確定代表不同基因的序列
2、建立正確的基因名字到登錄號(hào)的聯(lián)系
3、確定完整范圍的可以獲得的序列數(shù)據(jù)
4、創(chuàng)建一個(gè)新的處于三種狀態(tài)之一的參考序列(RefSeq)記錄
為什么RefSeq記錄中的基因符號(hào)(symbol)有時(shí)和相關(guān)的GenBank中的不一樣?RefSeq全部使用官方基因符號(hào)。而GenBank是一個(gè)公共的序列備份庫,由數(shù)據(jù)發(fā)現(xiàn)者提供。有的作者會(huì)向相關(guān)的物種命名委員會(huì)取得官方基因符號(hào),但有的作者沒有,所以有時(shí)會(huì)產(chǎn)生別名。GenBank與Pubmed相同,通過display可以選擇顯示格式,常用的有GenBank和FASTA兩種格式。如果要對基因序列作進(jìn)一步分析,F(xiàn)ASTA格式是很好的選擇。FASTA格式僅包括該序列的簡要特征,并以ATGC4種堿基列出核苷酸序列,簡單明了。而GenBank格式可顯示較完整的基因序列記錄,反映核苷酸序列的詳細(xì)信息。