2019년 11월 교육 자료


Haeyoung's metagenomics resource

Useful papers, websites, and videos

16S rRNA-based





Taxonomic profiling from metagenomic shotgun sequences (without assembly)

Shotgun sequencing and assembly-based


  • (Review) Recovering complete and draft population geonomes from metagenome datasets (2016)PubMed
  • (Review) Bioinformatic strategies for taxonomy independent binning and visualization of sequences in shotgun metagenomics (2017) PubMed

Phylogenetic classification of contigs

  • PhyloSift: phylogenetic analysis of genomes and metagenomes. PeerJ (2014) PMC "Using PhyloSift" workshop
  • MataPhlAn2 for enhanced metagenomic taxonomic profiling. Nature Methods (2015) 원문
  • PhyloPythiaS+: a self-training method for the rapid reconstruction of low-ranking taxonomic bins from metagenomes. PeerJ (2016) PubMed
  • ICoVeR – an interactive visualization tool for verification and refinement of metagenomic bins. BMC Bioinformatics (2017) PMC

CONCOCT, MaxBin, metaBAT…

Pipelines or web servers for metagenomc data analysis

  • MetAMOS GitHub 2016년도에는 관심이 꽤 많았었는데 요즘은 그저 그런 상태임.
  • MetaWRAP - a flexible pipeline for genome-resolved metagenomic data analysis bioRxiv GitHub
  • MicrobiomeAnalysis - a web-based tool for comprehensive statistical, visual and meta-analysis of microbiome data

A real example of Cyanobacterial genome assembly

Draft genome sequences of nine cyanobacterial strains from diverse habitats 본격적인 metagenome 연구와는 분명히 거리가 있으나 metagenome 연구 방법을 활용해야 하는 순간이 있다. 내가 연구하고자 하는 세균의 시퀀싱 결과를 얻었지만 피치못하게 오염이 존재하거나 또는 자연계에서 다른 세균과 공생 상태로 사는 경우이다. 수많은 contig 중에서 target genome의 contig만을 분리하는 것뿐만 아니라 공존하는 타 세균의 다양성을 파악하는 것도 전부 중요하다. 담수에 범람하여 환경에 큰 해를 끼치는 녹조의 주범 남세균 유전체 시퀀싱도 그 중의 하나이다. 최근에 Microcystis aeruginosa 국내 분리종 2건에 대한 유전체 및 전사체 분석을 하면서 이런 문제를 충분히 경험하였다. 마침 9종의 남세균 시퀀싱을 하면서 최신 생명정보학 기법을 동원한 Genome Announcements 논문이 있어서 사용한 프로그램을 살펴보기로 하였다. NCBI WGS 에 등록된 서열의 contig 수는 92(Oscillatoria rosea NIES-208), 320(Nostoc calcicola FACHB-389), 34(Fischerella major NIES-592), 68(Hydrococcus rivularis NIES-593), 43(Chroogloeocystis siderophila NIES-1031), 243(Calothrix sp. NIES-2101), 90(Phormidium ambiguum NIES-2119), 179(Scytonema sp. NIES-2130), 44(Phormidium tenue NIES-30)이다. Microcystis aeruginosa는 포함되지 않았다.

  • Genome sequencing: Illumina Hiseq 2000 system (2×100 from a ~500 bp fragment genomic library) or MiSeq(2×300 from 300-500 bp library)
  • trimmomatic v0.33
  • SPAdes v3.9.0 with “–meta” mode (다운로드)
  • Binning contigs > 2 kb using MaxBin v2.2.1(논문 다운로드) - MaxBin is a software that is capable of clustering metagenomic contigs into different bins, each consists of contigs from one species. MaxBin uses the nucleotide composition information and contig abundance information to do achieve binning through an Expectation-Maximization algorithm.
  • Completeness and contamination assessed using CheckM v1.0.5 (논문 다운로드) - an automated method for assessing the quality of a genome using a broader set of marker genes specific to the position of a genome within a reference genome tree and information about the collocation of these genes.
  • Contigs binned to Cyanobacteria were scaffolded using BESST v2.2.4 and FinishM v0.0.9
  • Polished using Pilon v1.20
  • Scaffolds were taxonomically classied using Kaiju and PhyloPythiaS+

실제 실행 사례

MaxBin은 완전히 종합 패키지이다. 설치 과정 중에 IDBA-UD, HMMER-3, Bowtie2, FragGeneScan을 덩달아 다운로드하여 빌드한다.

다른 유용 프로그램

GroopM, a companion of CheckM, can be used to recover genomes from metagenomic data.논문

