PALMapper

快速、准确、识别结构变异


概要

基本指南2这里介绍了如何使用PALMapper工具进行剪切或者非剪切比对的过程。这里讲述命令行方式的操作。Galaxy云操作在可选指南2里。对于不熟悉存储或者安装事宜的用户我们推荐使用Galaxy。然而当使用PALMapper处理相对较大的基因组比如人类基因组时,现在版本的Galaxy无法提供足够空间保障PALMapper运行。若是这样我们还是推荐用户使用命令行(具体内存需要请看考补充指南1)

本指南将会介绍在QPALMA已经被训练完毕(参考基本指南1)以及可变剪切位点已经被预测(参考补充指南2)的前提下如何使用PALMapper。最后本指南还会介绍包含在软件包里的测试案例,PALMapper是否得到期望结果。结果还可以用来测评(参考基本指南3)以及可视化(参考基本指南4)


必需资源和文件

  • 硬件

    Linux/Unix或者Mac OS X操作系统的计算机

  • 软件

    如果补充指南1已经完成,所有软件都必须安装

  • PALMapper需要以下文件

    • 以FASTA格式记录的基因组序列
    • 以Sanger FASTQ格式记录的序列数据
    • 以GFF3格式记录的基因组注释信息
    • 以SPF格式记录的5’ss和3’ss 剪切位点预测信息及其相应的二进制文件(可选)。该文件有两种获得方式:

      1. 参考补充指南2用户自行用mGene或者ASP来计算剪切位点预测结果

      2. 用户可以直接从ftp.tuebingen.mpg.de/pub/fml/raetsch-lab/predictions/ splice下载

    • QPALMA参数。通过训练QPALMA获得该文件。注意该文件可以直接使用预计算好的文件,并且已经包含在了软件包内。


运行PALMapper

1. 打开shell窗口进入PALMapper文件夹

∼$ cd palmapper/
          

2. 构建基因组目录

∼/palmapper/$ ./pmindex -i <genome file> -s <indexsize> -v 
          

其中<index size>是在做目录时,种子的长度。

3. 运行PALMapper

∼/palmapper/$ ./palmapper -i <genome file> -q <readfile> \ 

          -S -qpalma <qpalmaparamfile> -acc <accpredfile>  
-don <donaccfile> \
          -o <outmappedfile> -u <outunmappedfile> 
          

该命令适用于基本的剪切比对(请用-S参数申明)或者非剪切比对操作。用户应该参考详细参数表格来获得最好的结果。


参数 描述 默认值 可选值
-f 输出格式 SAM [SHORE, BED, BEDx, SAM]
-o 输出文件名 标准输出 字符串
输出
-u 无法比对测序序列文件名 /dev/null 字符串
-rlim 限定用于比对的测序序列数目 整数
-z 只保留分数前排的比对结果 10 整数
-a 保留所有成功的比对结果 整数
ar 只保留有限的最好比对结果 0(全部) 整数
比对方式
-r 禁止逆向比对
-h 始终比对测序序列的全长(用于剪切比对)
-d 在最右端或者最左端允许比对间隙(剪切比对时忽略此参数)
-w 对于最优比对允许两个以上的比对间隙
构建基因组目录
-l 最短匹配长度 目录大小 整数
-threads 最大线程数 4 整数
-seed-hit-cancel-threshold 导致seed被忽略时其匹配数目
-index-precache 线性序列目录文件
序列削断
-rtrim 削断序列直到实现一次匹配 整数
-polytrim 移除poly(A)尾巴直到实现一次匹配 整数
比对自定义
-M 最大不匹配个数 自动 整数
-G 最大比对间隙个数 自动 整数
-E 最大编辑操作 自动 整数
-m 不匹配罚分 4 8
-g 间隙罚分 5 10
-v 冗余 默认
参数 描述 默认值 种类
-S 使用剪切比对
-qpalma QPALMA参数文件 字符串
-acc 3'ss剪切位点预测 字符串
-don 5'ss剪切位点预测 字符串
-no-ss-pred 表明没有剪切位点预测
-filter-splice-sites-top-perc 如果最优比对出现在预测的剪切位点且超过该百分率则使用剪切比对 0.01 浮点数[0,1]
-fiter-max-mismatch 如果非剪切比对存在至少该数目的不匹配则发生剪切比对 0 整数
-filter-max-gaps 如果非剪切比对存在至少该数目的间隙则发生剪切比对 0 整数
-C 合并长度的最小值 自动 整数
-L 长匹配的长度最小值 自动 整数
-K 短匹配的长度最小值 自动 整数
-I 最长内含子长度 自动 整数
-SA 每一条测序序列剪切比对发生的最大次数 10 整数
-EL 剪切比对时片段长度最小值 自动 整数
-NI 剪切比对时内含子数目最大数目 自动 整数
-QMM 鉴定为剪切位点所需要的匹配个数 5 整数
-qpalma-use-map-max-len 对指定长度上下游延展的长度限制 10000 整数
-report 比对报告文档 字符串
-report-splice-sites 报告不低于阈值的可信剪切位点 浮点数
-report-splice-sites-top-perc 报告排名前排的可信可变剪切位点 浮点数[0,1]
-report-coverage-wig 用wiggle格式输出覆盖度文件 字符串
-report-giff-init 使用GFF注释文件来比对外显子(如果基因组注释信息已知) 字符串

4. 输出文件

两个输出文件将会产生并且记录在<out mapped file><out unmapped file>文件中。一旦比对满足用户设定的要求则会记录在成功比对输出文件内;相比之下,没有任何比对结果的测序序列将会记录在比对失败文件内。其中-u参数是可选的。

5. wiggle格式文件

可选。把SAM格式输出文件转换为wiggle格式:

∼/palmapper/$ cd tools/ ∼/palmapper/tools/$ python sam2wig.py \
          --input=<alignmentfile> \
          --ref_file=<genome_file> \
          --output=<wiggle_file> --expName=<exp_name> \
          

其中<alignmentfile>是第4步得到的比对结果,<genome_file>是基因组序列文件,<wiggle_file>是输出的wiggle文件,<exp_name> 是用户为实验的命名(比如Experiment-SRX001871)。也可以直接使用-report-coverage-wig参数来声明直接生成wiggle文件。