5.1.2 常用软件使用介绍

七月 16, 2015 生物信息 por DeanGao

目录


  • 长序列比对

blast
blast+
blat

  • NGS数据介绍及预处理

sratoolkit
fastx-toolkit
FastQC
Trimmomatic

  • 短序列(reads)比对

bowtie(bowtie2)
bwa
gsnap

  • 基因组序列注释

TRF
LTR_STRUC
RepeatMasker

augustus
GlimmerHMM
geneid
genscan
Fgenesh

genblast
genewise

PASA
EVM

InterProScan
KOBAS

  • 基因间关系分析

MCScanX
OrthoMCL

  • 转录组初级相关分析

tophat2
cufflinks


  • BLAST

简介:

BLAST(Basic Local Alignment Search Tool)基本的局部比对查询工具,是NCBI中使用的作为广泛的基于序列相似性的序列查询工具(http://blast.ncbi.nlm.nih.gov/Blast.cgi),其基本思想是根据提供的查询序列,按照序列相似性在相应的数据库中进行查找并返回相应的比对结果,BLAST有单机版、网页版等适用于不同需求的版本。比如 http://www.biomart.cn/news/10/85926.htm?trace=320syff 等博客都介绍了NCBI网页版的blast服务使用方法。这里我们主要是讲解下如何在Linux环境下通过命令行形式来运行BLAST得到相应的结果,前人已经有相关的博客了(http://www.bbioo.com/experiment/24-117079-1.html),这里大致提下。

下载:

下载地址为ncbi官方的FTP服务器:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/release/, 可以下载最新的单机版blast-2.2.26-x64-linux.tar.gz。

安装:

blast安装目录下的bin下面有如下几个程序:

使用:

BLAST根据序列的种类和不同需求的比对类型,拥有以下几种不同的比对子程序:

工具 描述 备注
blastn Search a nucleotide database using a nucleotide query 用核酸序列在核酸数据库中进行搜索
blastp Search protein database using a protein query 用蛋白质序列在蛋白质数据库中进行搜索
blastx Search protein database using a translated nucleotide query 将核酸序列安装不同阅读框(6种)翻译成蛋白质后再在蛋白质数据库中进行搜索
tblastn Search translated nucleotide database using a protein query 先讲数据库中的核算序列都翻译成蛋白质,再利用蛋白质查询序列在翻译后的数据库中进行搜索
tblastx Search translated nucleotide database using a translated nucleotide query 查询序列与数据库序列都进行翻译,再进行相似性搜索

1. 格式化

在执行具体的搜索前,是需要先对数据库进行格式化的(格式化一次就行),以建立索引方便后续的比对搜索,此工具为formatdb,以拟南芥的所有蛋白质序列和所有cDNA序列为例:

formatdb常用参数

这里我们主要讲解下主要的几个参数,其它的可以不用关注:

举例:

可以看出多了很多其它的文件,蛋白质序列格式化后显示的后缀名是.pxx, 核酸序列格式化后显示的是.nxx。

2. 比对

下面就是具体的比对了,blast在bin目录下面提供了blastall命令,该命令通过相关的参数可以调用上面6种不同的子程序来实现序列的比对。

blastall常用参数

下面来具体看下几个参数:

举例-m 9:

几列的意义分布是:

query的ID,Subject(Target)的ID,一致性,比对长度,错配个数,gap打开个数,比对中query的start,比对着query的end,比对着subject的start,比对中subject的end,比对可靠性e-value,比对匹配得分score。

 

举例-m 0:

从这个结果中你可以大致看到一段比对segment的评判标准Identities(一致性)和Positives(相似性)是怎么计算的, 一致性是完全一样的匹配占总匹配长度的比率,而相似性是指在完全一样匹配的基础上再加上相似匹配的比率,比如在蛋白质比对过程中算上非一致但是酸碱性相似的匹配。所以一般相似性是大于或者等于一致性的,具体的可以看看网上的详细介绍:http://emuch.net/html/201206/4569379.html, http://boyun.sh.cn/bio/?p=1453,E-value和Score具体是什么意思。

掌握基本的blast比对程序的使用是很有必要的,应为生物信息学分析中有很多软件和方法都是基于blast各种格式的输出结果。

3. 提取序列

fastacmd这里讲解如何在格式化好的数据库中根据ID来提取相应的序列,这个是非常实用的,尤其是对没有一定编程基础的人来说。

看下常用参数:

举例:

  • BLAST+

简介

BLAST+顾名思义就是BLAST的加强版,整体功能和BLAST很类似,具体可以看下NCBI上面的介绍:

可以看出BLAST+相对于BLAST在长序列比对和序列mask方面都有提示。具体的可以在ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST/user_manual.pdf看到。

下载

下载地址:ftp://ftp.ncbi.nlm.nih.gov/blast/executables/blast+/LATEST

安装

使用

1. 格式化

makeblastdb命令实现数据库的格式化操作,和blast的formatdb类似,具体参数及使用如下:

参数详解

举例(核酸序列类似处理):

从上面可以看出来,blast+的makeblastdb和formatdb都是差不多的。

2. 比对

blast+相对于blast而言是将blastp等分成单个的应用程序,而不是想blast那样都集成在blastall一个应用程序中而通过-p参数来指明,这里以蛋白质比对(blastp)为例:

参数:

常用参数详解:

 

3. 提取序列

4. 转换格式

  • BLAT
  • sratoolkit
  • fastx-toolkit
  • FastQC
  • Trimmomatic
  • bowtie
  • bwa
  • gsnap
  • TRF
  • LTR_STRUC
  • RepeatMakser
  • augustus
  • GlimmerHMM
  • geneid
  • genscan
  • Fgenesh
  • genblast
  • genewise
  • PASA
  • EVM
  • InterProScan
  • KOBAS
  • MCScanX
  • OrthoMCL
  • tophat2
  • cufflinks
原创文章,转载请注明: 转载自rabbit gao's blog
本文链接地址: 5.1.2 常用软件使用介绍