Liftoff 是在同物种或者近缘物种的基因组之间准确映射 GFF 或 GTF 基因注释的工具。
Liftoff 只需要两个基因组 Fasta 和一个参考注释 GFF/GTF 作为输入,并输出目标基因组的注释。
Liftoff 使用 Minimap2 (Li, 2018) 将参考基因组中的基因序列与目标基因组进行比对。仅比对基因序列也可以使基因被提升,并不比对整个基因组。对于每个基因,Liftoff 都会找到外显子的比对,以最大限度地提高序列同一性,同时保留转录本和基因结构。如果两个基因错误地映射到重叠位点,Liftoff 会确定哪个基因最有可能被错误映射,并尝试重新映射它。 Liftoff 还可以找到目标组件中存在的、参考文献中未注释的其他基因拷贝。
https://github.com/agshumate/Liftoff
Liftoff: accurate mapping of gene annotations
conda 安装最方便。
conda install -c bioconda liftoff
liftoff -g reference.annotation.gff3 \\ #输入的参考基因组的注释gff文件
-o target.gff \\ #输出的目标基因组的注释gff文件
-p 10 \\ #线程数,默认 1 线程
-polish \\ #提高注释准确性
-copies \\ #在目标基因组中寻找额外的基因拷贝
-chroms chroms.txt \\ #同一物种的染色体对应文件
-flank 0.2 \\ #比对基因侧翼序列,改善注释效果
target.genome.fasta \\ #目标基因组
reference.genome.fa #参考基因组
注意:
(1)当 Lift-over 导致起始/终止密码子丢失或终止密码子提前出现时,使用 -polish
选项 Liftoff 将重新对齐外显子,改善这部分注释的准确性。会将增加运行时间,有 2 个输出 GFF/GTF 文件,名为 {output}.gff 和 {output}.gff_polish。 {output}.gff 包含抛光步骤之前的注释,而 {output}.gff_polish 包含抛光之后的注释。建议直接使用**{output}.gff_polish**做为结果。
(2)当参考基因组和目标基因组中的基因结构(即内含子大小)相似时,Liftoff 效果最佳。当基因大小差异显着时,比对更加分散,并且基因开头或末端的小外显子通常不对齐。在某些情况下,使用 -flank
选项向基因添加和比对一定比例的侧翼序列可以改善这种情况。另外,增加 -d 参数将允许目标基因组中的基因比参考基因组中的基因大得多的映射。
(3)可以使用 -unplaced 选项提供未放置序列名称的列表。使用此选项,在 chroms.txt 中主染色体上的基因被映射后,参考中这些未放置的重叠群中的基因将被映射到目标组件。