基本指南2这里介绍了如何使用PALMapper工具进行剪切或者非剪切比对的过程。这里讲述命令行方式的操作。Galaxy云操作在可选指南2里。对于不熟悉存储或者安装事宜的用户我们推荐使用Galaxy。然而当使用PALMapper处理相对较大的基因组比如人类基因组时,现在版本的Galaxy无法提供足够空间保障PALMapper运行。若是这样我们还是推荐用户使用命令行(具体内存需要请看考补充指南1)
本指南将会介绍在QPALMA已经被训练完毕(参考基本指南1)以及可变剪切位点已经被预测(参考补充指南2)的前提下如何使用PALMapper。最后本指南还会介绍包含在软件包里的测试案例,PALMapper是否得到期望结果。结果还可以用来测评(参考基本指南3)以及可视化(参考基本指南4)
硬件
Linux/Unix或者Mac OS X操作系统的计算机
软件
如果补充指南1已经完成,所有软件都必须安装
PALMapper需要以下文件
以SPF格式记录的5’ss和3’ss 剪切位点预测信息及其相应的二进制文件(可选)。该文件有两种获得方式:
参考补充指南2用户自行用mGene或者ASP来计算剪切位点预测结果
用户可以直接从ftp.tuebingen.mpg.de/pub/fml/raetsch-lab/predictions/ splice下载
QPALMA参数。通过训练QPALMA获得该文件。注意该文件可以直接使用预计算好的文件,并且已经包含在了软件包内。
∼$ cd palmapper/
∼/palmapper/$ ./pmindex -i <genome file> -s <indexsize> -v
其中<index size>
是在做目录时,种子的长度。
∼/palmapper/$ ./palmapper -i <genome file> -q <readfile> \
-S -qpalma <qpalmaparamfile> -acc <accpredfile>
-don <donaccfile> \
-o <outmappedfile> -u <outunmappedfile>
该命令适用于基本的剪切比对(请用-S
参数申明)或者非剪切比对操作。用户应该参考详细参数表格来获得最好的结果。
参数 | 描述 | 默认值 | 可选值 |
-f | 输出格式 | SAM | [SHORE, BED, BEDx, SAM] |
-o | 输出文件名 | 标准输出 | 字符串 |
输出 | |||
-u | 无法比对测序序列文件名 | /dev/null | 字符串 |
-rlim | 限定用于比对的测序序列数目 | 整数 | |
-z | 只保留分数前排的比对结果 | 10 | 整数 |
-a | 保留所有成功的比对结果 | 整数 | |
ar | 只保留有限的最好比对结果 | 0(全部) | 整数 |
比对方式 | |||
-r | 禁止逆向比对 | ||
-h | 始终比对测序序列的全长(用于剪切比对) | ||
-d | 在最右端或者最左端允许比对间隙(剪切比对时忽略此参数) | ||
-w | 对于最优比对允许两个以上的比对间隙 | ||
构建基因组目录 | |||
-l | 最短匹配长度 | 目录大小 | 整数 |
-threads | 最大线程数 | 4 | 整数 |
-seed-hit-cancel-threshold | 导致seed被忽略时其匹配数目 | ||
-index-precache | 线性序列目录文件 | ||
序列削断 | |||
-rtrim | 削断序列直到实现一次匹配 | 整数 | |
-polytrim | 移除poly(A)尾巴直到实现一次匹配 | 整数 | |
比对自定义 | |||
-M | 最大不匹配个数 | 自动 | 整数 |
-G | 最大比对间隙个数 | 自动 | 整数 |
-E | 最大编辑操作 | 自动 | 整数 |
-m | 不匹配罚分 | 4 | 8 |
-g | 间隙罚分 | 5 | 10 |
-v | 冗余 | 默认 |
参数 | 描述 | 默认值 | 种类 |
-S | 使用剪切比对 | ||
-qpalma | QPALMA参数文件 | 字符串 | |
-acc | 3'ss剪切位点预测 | 字符串 | |
-don | 5'ss剪切位点预测 | 字符串 | |
-no-ss-pred | 表明没有剪切位点预测 | ||
-filter-splice-sites-top-perc | 如果最优比对出现在预测的剪切位点且超过该百分率则使用剪切比对 | 0.01 | 浮点数[0,1] |
-fiter-max-mismatch | 如果非剪切比对存在至少该数目的不匹配则发生剪切比对 | 0 | 整数 |
-filter-max-gaps | 如果非剪切比对存在至少该数目的间隙则发生剪切比对 | 0 | 整数 |
-C | 合并长度的最小值 | 自动 | 整数 |
-L | 长匹配的长度最小值 | 自动 | 整数 |
-K | 短匹配的长度最小值 | 自动 | 整数 |
-I | 最长内含子长度 | 自动 | 整数 |
-SA | 每一条测序序列剪切比对发生的最大次数 | 10 | 整数 |
-EL | 剪切比对时片段长度最小值 | 自动 | 整数 |
-NI | 剪切比对时内含子数目最大数目 | 自动 | 整数 |
-QMM | 鉴定为剪切位点所需要的匹配个数 | 5 | 整数 |
-qpalma-use-map-max-len | 对指定长度上下游延展的长度限制 | 10000 | 整数 |
-report | 比对报告文档 | 字符串 | |
-report-splice-sites | 报告不低于阈值的可信剪切位点 | 浮点数 | |
-report-splice-sites-top-perc | 报告排名前排的可信可变剪切位点 | 浮点数[0,1] | |
-report-coverage-wig | 用wiggle格式输出覆盖度文件 | 字符串 | |
-report-giff-init | 使用GFF注释文件来比对外显子(如果基因组注释信息已知) | 字符串 |
两个输出文件将会产生并且记录在<out mapped file>
和<out unmapped file>
文件中。一旦比对满足用户设定的要求则会记录在成功比对输出文件内;相比之下,没有任何比对结果的测序序列将会记录在比对失败文件内。其中-u
参数是可选的。
可选。把SAM格式输出文件转换为wiggle格式:
∼/palmapper/$ cd tools/ ∼/palmapper/tools/$ python sam2wig.py \
--input=<alignmentfile> \
--ref_file=<genome_file> \
--output=<wiggle_file> --expName=<exp_name> \
其中<alignmentfile>
是第4步得到的比对结果,<genome_file>
是基因组序列文件,<wiggle_file>
是输出的wiggle文件,<exp_name>
是用户为实验的命名(比如Experiment-SRX001871)。也可以直接使用-report-coverage-wig参数来声明直接生成wiggle文件。