功能简介
fastp可对二代 WGS、RNA-seq、HiC等测序数据质控
下方功能介绍引用自:转录组数据分析—fastp v0.23.1 - 简书 (jianshu.com)
- 对数据自动进行全方位质控,生成人性化的报告。
- 过滤功能(低质量,太短,太多N……)。对每一个序列的头部或尾部,计算滑动窗内的质量均值,并将均值较低的子序列进行切除(类似Trimmomatic的做法,但是快非常多)。
- 全局剪裁 (在头/尾部,不影响去重),对于Illumina下机数据往往最后一到两个cycle需要这样处理。去除接头污染。不用输入接头序列,算法会自动识别接头序列并进行剪裁。
- 对于双端测序(PE)的数据,软件会自动查找每一对read的重叠区域,并对该重叠区域中不匹配的碱基对进行校正。
- 去除尾部的polyG。对于Illumina NextSeq/NovaSeq的测序数据,因为是两色法发光,polyG是常有的事,所以该特性对该两类测序平台默认打开。
- fastp支持对PE数据的每一对read进行分析,查找它们的overlap区间,然后对于overlap区间中不一致的碱基,如果发现其中一个质量非常高,而另一个非常低,则可以将非常低质量的碱基改为相应的非常高质量值的碱基值,该校正功能默认没有开启使用**-c**参数可以启用,对于一些对噪声容忍度低的应用,比如液体活检,建议开启。
- 可以对带分子标签(UMI)的数据进行预处理,不管UMI在插入片段还是在index上,都可以轻松处理。可以将输出进行分拆,而且支持两种模式,分别是指定分拆的个数,或者分拆后每个文件的行数。
Installation
Linux 用户可以直接下载二进制版本,开箱即用。
# download the latest build
wget <http://opengene.org/fastp/fastp>
chmod a+x ./fastp
# or download specified version, i.e. fastp v0.23.2
wget <http://opengene.org/fastp/fastp.0.23.2>
mv fastp.0.23.1 fastp
chmod a+x ./fastp
使用方法
1. 二代双端测序 paired end data (gzip compressed)
一般情况下,默认参数就好,支持输入压缩或者未压缩的fastq文件
fastp -i in.R1.fq.gz -I in.R2.fq.gz -o out.R1.fq.gz -O out.R2.fq.gz \\
--html fastp.html --json fastp.json --thread 4
🆘 如果不指定输出文件名 -o/-O,则不会写入任何输出文件,但仍会对过滤前后的数据进行 QC, 默认输出fastp.html/fastp.json。