User Tools

Site Tools


downloading_genomes_from_ncbi_ftp_site

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
downloading_genomes_from_ncbi_ftp_site [2019/03/13 16:51]
hyjeong [실제 사례]
downloading_genomes_from_ncbi_ftp_site [2019/03/13 16:52] (current)
hyjeong [실제 사례]
Line 46: Line 46:
   $ sed -r '​s|(ftp://​ftp.ncbi.nlm.nih.gov/​genomes/​all/​.+\/​)(GCF_.+)|\1\2\/​\2_genomic.gbff.gz|'​ list_all_ftp_path > list_all_files_with_path_gbff   $ sed -r '​s|(ftp://​ftp.ncbi.nlm.nih.gov/​genomes/​all/​.+\/​)(GCF_.+)|\1\2\/​\2_genomic.gbff.gz|'​ list_all_ftp_path > list_all_files_with_path_gbff
   $ sed -r '​s|(ftp://​ftp.ncbi.nlm.nih.gov/​genomes/​all/​.+\/​)(GCF_.+)|\1\2\/​\2_protein.faa.gz|'​ list_all_ftp_path > list_all_files_with_path_faa   $ sed -r '​s|(ftp://​ftp.ncbi.nlm.nih.gov/​genomes/​all/​.+\/​)(GCF_.+)|\1\2\/​\2_protein.faa.gz|'​ list_all_ftp_path > list_all_files_with_path_faa
-  # ~_protein.faa.gz와 ~_translated_cds.faa.gz는 서열 ID와 description의 모양새가 다름에 유의하. locus tag등 월등하게 많은 정보를 수록한 것은 후자이다.+  # ~_protein.faa.gz와 ~_translated_cds.faa.gz는 서열 ID와 description의 모양새가 다름에 유의하. locus tag등 월등하게 많은 정보를 수록한 것은 후자이다.
   $ mkdir 01_fna   $ mkdir 01_fna
   $ cd 01_fna   $ cd 01_fna
Line 61: Line 61:
   ​   ​
 === id2name에 대한 부연 설명 === === id2name에 대한 부연 설명 ===
-id2name 파일을 매개로 하여 GCF_000469945.2_ASM46994v2_genomic.fna.gz라는 파일이 Paenibacillus_sp._P22_GCF_000469945.2.fna로 바뀌게 된다. 변경 후 파일명의 앞부분을 차지하는 균주 이름은 당연히 assembly summary file의 여덟번째 컬럼에서 유래한다. 하지만 실제 assembly summary 파일을 열어보면 파일명으로 쓰기에 적합하지 않는 문자가 들어있는 경우가 상당히 많다. 예를 들어 공백, 세미콜론,​ 괄호 등이 그러하다. 이를 되도록 철저하게 밑줄로 바꾸는 것이 중요하다. 이미 파일 이름을 다 바꾼 상태에서 GCF_000469945.2.fna처럼 assembly accession만 남기고 싶다면 [[http://​blog.genoglobe.com/​2019/​03/​bash-shell.html|[정해영의 블로그] ​BASH-shell: 구분자가 포함된 문자열의 조작 기법]]을 참조하라.+id2name 파일을 매개로 하여 GCF_000469945.2_ASM46994v2_genomic.fna.gz라는 파일이 Paenibacillus_sp._P22_GCF_000469945.2.fna로 바뀌게 된다. 변경 후 파일명의 앞부분을 차지하는 균주 이름은 당연히 assembly summary file의 여덟번째 컬럼에서 유래한다. 하지만 실제 assembly summary 파일을 열어보면 파일명으로 쓰기에 적합하지 않는 문자가 들어있는 경우가 상당히 많다. 예를 들어 공백, 세미콜론,​ 괄호 등이 그러하다. 이를 되도록 철저하게 밑줄로 바꾸는 것이 중요하다. 이미 파일 이름을 다 바꾼 상태에서 GCF_000469945.2.fna처럼 assembly accession만 남기고 싶다면 [[http://​blog.genoglobe.com/​2019/​03/​bash-shell.html|[정해영의 블로그] ​Bash, shell: 구분자가 포함된 문자열의 조작 기법]]을 참조하라.
  
 === while loop 대신 xargs 사용하기 === === while loop 대신 xargs 사용하기 ===
downloading_genomes_from_ncbi_ftp_site.txt · Last modified: 2019/03/13 16:52 by hyjeong