User Tools

Site Tools


de_novo_assembly

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
de_novo_assembly [2016/02/16 09:53]
hyjeong [2. A5-miseq (ngopt)]
de_novo_assembly [2016/02/17 14:08] (current)
Line 1: Line 1:
 +====== De novo assembly ======
 +===== 1. Velvet =====
 +==== (optional) Interleaved file의 준비 ====
 +  $ /​usr/​local/​Bio/​velvet_1.2.10/​contrib/​shuffleSequences_fasta/​shuffleSequences_fastq.pl BL21-20x_1.fastq ​ BL21-20x_2.fastq BL21-paired.fastq  ​
  
 +  * 최근에는 -separate 옵션이 추가되어서 2개의 paired file을 그대로 공급해도 됨
 +  * velvetg 또는 velveth를 실행하여 MAXKMERLENGTH를 확인
 +
 +==== [1] Velvet의 직접 실행(velveth -> velvetg) ====
 +  $ /​usr/​local/​Bio/​velvet_1.2.10/​velveth velvet_out 53 -shortPaired -fastq BL21-paired.fastq 또는
 +  $ /​usr/​local/​Bio/​velvet_1.2.10/​velveth velvet_out 53 -shortPaired -fastq -separate BL21-20x_1.fastq BL21-20x_2.fastq
 +  $ /​usr/​local/​Bio/​velvet_1.2.10/​velvetg velvet_out -cov_cutoff auto -exp_cov auto
 +  $ /​usr/​local/​Bio/​bin/​n50.pl contigs.fa (결과의 확인)
 +  ​
 +==== [2] Velvetoptimiser를 이용한 최적화 실행 ====
 +  * [[http://​www.bioperl.org/​wiki/​Main_Page|BioPerl]]이 설치되어 있어야 함
 +  * velveth, velvetg가 PATH 환경변수에 설정되어 있어야 함
 +  * -optFuncKmer 기본 설정은 n50(Lcon은 large contig의 수에 최적화)
 +  * hash length(Kmer)의 범위를 -s <start value> -e <end value>​로 설정하면 2씩 증가시켜 가면서 실행함. step value(기본 2)는 --x로 설정
 +  $ export PATH=$PATH:/​usr/​local/​Bio/​velvet_1.2.10
 +  $ /​usr/​local/​Bio/​velvet_1.2.10/​contrib/​VelvetOptimiser-2.2.4/​VelvetOptimiser.pl -s 35 -e 61 -optFuncKmer=Lcon -f '​-shortPaired -fastq BL21-paired.fastq'​
 +  $ /​usr/​local/​Bio/​bin/​n50.pl auto_data_39/​contigs.fa (결과의 확인)
 +===== 2. A5-miseq (ngopt) =====
 +  * A5-miseq([[http://​bioinformatics.oxfordjournals.org/​content/​31/​4/​587.long|Bioinformatics. 2015 Feb 15;​31(4):​587-9]])은 파이프라인 구동에 필요한 모든 요소 프로그램이 패키지 안에 들어 있어서 이들을 별도로 설치할 필요가 없음
 +  * 어댑터 서열 제거와 trimming에는 trimmomatic,​ error correction에는 SGA, de novo assembly에는 IDBA_UD, scaffolding에는 SSPACE를 사용
 +  * Interleaved file이나 gzipped fastq file을 제공해도 됨
 +  * '​--begin=2 --end=5'​ 옵션으로 실행 단계(1~5)를 지정할 수 있음
 +
 +  $ /​usr/​local/​Bio/​a5_miseq_linux_20140604/​bin/​a5_pipeline.pl --threads=8 BL21-20x_1.fastq BL21-20x_2.fastq BL21-a5
 +  $ /​usr/​local/​Bio/​bin/​n50.pl BL21-a5.final.scaffolds.fasta (결과의 확인)
de_novo_assembly.txt · Last modified: 2016/02/17 14:08 (external edit)