真核生物的基因一般为断裂基因(interrupted gene),由内含子和外显子组成,编码序列通常被内含子隔开。
虽然内含子的长度没有一定的规律,但是内含子和外显子的边界和周围序列是由前体mRNA内的具有保守性的一些特殊核苷酸序列表明的,通常内含子5’端剪切位点以GU开始,称为供体位点(donor),3’端剪切位点以AG结束,称为受体位点(acceptor),还包括一个位于内含子内,靠近3’端的分支位点(常为A),后面为多聚嘧啶区。
在分析基因组数据时,经常需要预测基因的RNA选择性剪切方式,即内含子和外显子的位置和数量。预测是基于RNA剪接的保守性序列“GU-AG”规则。根据这一特点并结合ORF,Blast等数据就可以对未知基因的成熟mRNA序列进行预测。
一般来说基因组核苷酸序列的包含剪切位点和内含子可用NetGene2和Splice View等工具直接预测;而对于mRNA/cDNA序列的分析,则需要借助Spidey,SIM4,BLAT和BLAST等序列比对工具从相应的基因组序列推断基因结构。