User Tools

Site Tools


ont_sequencing_data_analysis

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
ont_sequencing_data_analysis [2019/05/02 13:26]
hyjeong [처음에 해야 할 것]
ont_sequencing_data_analysis [2019/09/17 13:34]
hyjeong [QC using poretools]
Line 11: Line 11:
 EPI2ME에서는 더 이상 basecall을 진행하지 않으므로 Albacore를 설치하여 local basecalling을 하라는 고객 센터의 알림이 있었다. 단, MinKNOW 설정 창의 Basecalling(Live or None 중에 선택)에서 나타나는 Live basecalling은 Albacore를 뜻하는 것이 아니라 1D  sequencing protocol을 위해 내장된 것이다. 파이썬 2.7과 3.5(Albacore)를 번갈아 이용해야 하므로 pyenv를 활용하는 것을 권장한다. 혹은 anaconda도 좋다. EPI2ME에서는 더 이상 basecall을 진행하지 않으므로 Albacore를 설치하여 local basecalling을 하라는 고객 센터의 알림이 있었다. 단, MinKNOW 설정 창의 Basecalling(Live or None 중에 선택)에서 나타나는 Live basecalling은 Albacore를 뜻하는 것이 아니라 1D  sequencing protocol을 위해 내장된 것이다. 파이썬 2.7과 3.5(Albacore)를 번갈아 이용해야 하므로 pyenv를 활용하는 것을 권장한다. 혹은 anaconda도 좋다.
 ===== 새로 시작하기 ===== ===== 새로 시작하기 =====
-이 글은 2019년 5월 2일부터 작성하기 시작한다. 다음 섹션(처음에 해야 할 것) 이후의 글은 더 이상 유효하지 않다. MinKNOW를 이용하면 albacore를 별도로 설치하지 않아도 basecalling이 진행되고, 새로운 pomoxis에서는 read 간의 overlap을 de novo assembly 전에 산출할 필요가 다.+이 글은 2019년 5월 2일부터 작성하기 시작한다. 다음 섹션(처음에 해야 할 것) 이후의 글은 더 이상 유효하지 않다. MinKNOW를 이용하면 albacore를 별도로 설치하지 않아도 basecalling이 진행되고, 새로운 pomoxis에서는 wrapper script가 많은 것을 알아서 진행한다.
 ==== Best long read mapper? ==== ==== Best long read mapper? ====
 한동안 BWA-mem이 널리 쓰여 왔으나, 이제는 pomoxis에 포함되어 있는 minimap2가 최선인 것으로 보인다([[https://lh3.github.io/2018/04/02/minimap2-and-the-future-of-bwa|참고 글]] 한동안 BWA-mem이 널리 쓰여 왔으나, 이제는 pomoxis에 포함되어 있는 minimap2가 최선인 것으로 보인다([[https://lh3.github.io/2018/04/02/minimap2-and-the-future-of-bwa|참고 글]]
Line 42: Line 42:
 만약 ONT cloud에서 basecall을 했다면(즉 Metrichor를 이용했다면) 업로드된 fast5 파일은 처리를 거쳐서 pass와 fail 디렉토리로 나뉘어 다운로드된다. pass에는 바코드에 의해 성공적으로 분리되고 사전에 정의된 threshold를 넘는 mean base quality score를 넘는 read들이 쌓인다. 만약 ONT cloud에서 basecall을 했다면(즉 Metrichor를 이용했다면) 업로드된 fast5 파일은 처리를 거쳐서 pass와 fail 디렉토리로 나뉘어 다운로드된다. pass에는 바코드에 의해 성공적으로 분리되고 사전에 정의된 threshold를 넘는 mean base quality score를 넘는 read들이 쌓인다.
 ===== QC using poretools ===== ===== QC using poretools =====
-[[https://poretools.readthedocs.io/en/latest/|portools]]를 사용하려면 basecall 정보가 담긴 fast5이 필요하므로, MinKNOW가 생성한 fast5 파일을 그대로 사용하면 안된다. 아래에서 설명한 바와 같이 Albacore를 사용하여 basecall을 한 fast5 파일을 먼저 만들도록 한다. 처음에는 이와 같은 사실을 몰라서 왜 첫 러닝한 fast5에 아무런 정보가 없는 것일까하고 무척 고민을 많이 하였다.+[[https://poretools.readthedocs.io/en/latest/|poretools]]를 사용하려면 basecall 정보가 담긴 fast5이 필요하므로, MinKNOW가 생성한 fast5 파일을 그대로 사용하면 안된다. 아래에서 설명한 바와 같이 Albacore를 사용하여 basecall을 한 fast5 파일을 먼저 만들도록 한다. 처음에는 이와 같은 사실을 몰라서 왜 첫 러닝한 fast5에 아무런 정보가 없는 것일까하고 무척 고민을 많이 하였다.
  
 poretools에서는 유용한 diagnostic plot을 만들어내는 기능이 있다. 그러나 십중팔구 다음과 같은 에러 메시지가 나올 가능성이 크다. 참고로 Tkinter는 파이썬 모듈, _tkinter는 C 모듈이다. poretools에서는 유용한 diagnostic plot을 만들어내는 기능이 있다. 그러나 십중팔구 다음과 같은 에러 메시지가 나올 가능성이 크다. 참고로 Tkinter는 파이썬 모듈, _tkinter는 C 모듈이다.
ont_sequencing_data_analysis.txt · Last modified: 2019/09/17 13:34 by hyjeong