hifiasm 是大神李恒开发,基于 long reads 的基因组组装工具。

经过不断升级,目前的v0.19.5 支持同时输入hifi + hic数据,生成单倍型解析的 contigs,也就是每个contig 仅来自一个亲本的单倍型。但是仅靠 hifi + hic 不能进行染色体phase,也就是说来自父母本的不同 contigs 会随机的分配给两个单倍型基因组。

亲测表明,对比只用hifi数据,加上 hic 数据来组装 contig 是可以提高组装的准确性和连续性,并且减少了长度很短 contigs 的数量。(只在哺乳动物中参考使用)

hifiasm -t 64 -o pri.hic.asm \\
	--h1 hic.clean.R1.fastq.gz \\
	--h2 hic.clean.R2.fastq.gz \\
	hifi.filt.fastq.gz

生成的结果中有一个 pri.hic.asm.hic.p_ctg.gfa,为嵌合基因组。通过下列代码转为fasta文件进行后续分析。

awk '/^S/{print ">"$2;print $3}' pri.hic.asm.hic.p_ctg.gfa > pri.hic.asm.hic.p_ctg.fa

而软件同时生成的 hap1.p_ctg.gfa,hap2.p_ctg.gfa,由于并非父母本完全分型的单倍型基因组,本质上还是嵌合基因组,就不进一步分析。还是使用pri.hic.asm.hic.p_ctg.gfa 用作后续分析。

当然了,现在都开始卷T2T基因组。对于没有父母本信息的基因组,用hap1.p_ctg.gfa,hap2.p_ctg.gfa 给pri.hic.asm.hic.p_ctg.gfa补gap也是一种策略。

获得的 pri.hic.asm.hic.p_ctg.fa 可统计基因组 N50 等指标。