User Tools

Site Tools


all_about_illumina_sequence_assembly_for_microbial_genomes

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
all_about_illumina_sequence_assembly_for_microbial_genomes [2017/10/13 17:15]
hyjeong [A5-miseq]
all_about_illumina_sequence_assembly_for_microbial_genomes [2020/05/19 08:41] (current)
hyjeong [Fastq 파일의 정돈부터 시작해야 한다면]
Line 31: Line 31:
   $ sh file_1.sh   $ sh file_1.sh
   $ sh file_2.sh   $ sh file_2.sh
-  +2020년 5월 현재에는 이렇게 무식한(?) 방법으로 fastq 파일 이름을 정리하지 않는다. 원본의 파일 이름이 밑줄('_')로 구분된 컬럼을 갖고 있고, 그 중에서 만약 첫번째와 네번째 것을 남기고 싶다면 다음과 같이 하면 된다. 네번째 필드는 보통 판독 방향을 나타내므로(R1 or R2), 이어서 _1과 _2로 바꾸거나 혹은 그냥 놔두어도 보통의 프로그램은 다 알아먹는다.  
 +  $ ls *fastq | while read f 
 +  > do 
 +  > cut -d_ -f1,3 $(<<<$f) 
 +  > done
 ===== FastQC를 이용한 기본적인 QC ===== ===== FastQC를 이용한 기본적인 QC =====
 여기서 QC라 함은 원본 시퀀싱 데이터 파일(fastq)에 변화를 가하지 않고 단지 quality에 대한 평가를 하는 일을 뜻힌다. 따라서 수치와 도표로 표현되는 보고서가 주된 결과물이다. 매우 널리 쓰이는 QC 도구인 [[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/|FastQC]]를 다음과 같이 사용하면 하나의 입력 파일 file_1.fastq(.gz)에 대해서 file_1_fastq.html 및 file_1_fastq.zip이 생성된다. 여기서 QC라 함은 원본 시퀀싱 데이터 파일(fastq)에 변화를 가하지 않고 단지 quality에 대한 평가를 하는 일을 뜻힌다. 따라서 수치와 도표로 표현되는 보고서가 주된 결과물이다. 매우 널리 쓰이는 QC 도구인 [[https://www.bioinformatics.babraham.ac.uk/projects/fastqc/|FastQC]]를 다음과 같이 사용하면 하나의 입력 파일 file_1.fastq(.gz)에 대해서 file_1_fastq.html 및 file_1_fastq.zip이 생성된다.
all_about_illumina_sequence_assembly_for_microbial_genomes.txt · Last modified: 2020/05/19 08:41 by hyjeong