User Tools

Site Tools


to_be_renamed

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
to_be_renamed [2019/01/25 11:27]
hyjeong
to_be_renamed [2019/06/27 11:24] (current)
hyjeong [LS-BSR]
Line 95: Line 95:
 {{ :​svg.png?​400 |}} {{ :​svg.png?​400 |}}
  
 +=== Strain-specific gene 찾기 ===
 +R에서 gene_presence_absence.Rtab과 gene_presence_absence.csv 두 파일을 다루면 된다. 다음의 사례에서는 Lb_1-46 균주에서 특이적인 유전자의 id를 추출하는 사례를 보여준다. Lb_1-46은 데이터프레임으로 읽어들이면 Lb_1.46으로 바뀌는 것에 유의해라. 구글링을 잘 하면 이를 원래 이름 그대로 유지하는 방법이 있다([[https://​blog.genoglobe.com/​2018/​12/​r-readtable.html|하루에 한 R 관련글]]).
 +  > dat = read.table("​gene_presence_absence.Rtab",​sep="​\t",​header=T,​row.names=1) ​
 +  > dat$Lb_1.46
 +  > dat.s = subset(dat, rowSums(as.matrix(dat))==1)
 +  > Lb.s = dat.s[which(dat.s$Lb_1.46==1),​]
 +  > Lb.s.genes = rownames(Lb.s)
 +  > dat.2 = read.table("​gene_presence_absence.csv",​sep=",",​header=T,​row.names=1)
 +  > dat.2$Lb_1.46
 +  > dat.f = dat.2[which(rownames(dat.2) %in% Lb.s.genes),​]
 +  > dat.f$Lb_1.46
 +  > write.table(dat.f$Lb_1.46,"​out.txt",​sep="​\t",​quote=F,​col.names=F)
 === 기타 해결할 문제 === === 기타 해결할 문제 ===
 결과 파일을 열어보면 일부 단백질의 ID가 변형되어 쓰인 것을 알 수 있다. 즉 원본 annotation file에서 MT_RS20470라는 locus tag을 갖는 유전자가 "​MT_RS20470.p01_16540"​으로 바뀐 것이다. .p01은 유전자에서 단백질로 번역됨을 나타내는 것이겠지만 "​_16540"​은 무엇인가?​ (원래 '​_'​가 3회 반복된 것이나 DokuWiki에서 그렇게 타이핑하면 긴 가로선이 나오기 때문에 부득이하게 하나만 타이핑하였다) 결과 파일을 열어보면 일부 단백질의 ID가 변형되어 쓰인 것을 알 수 있다. 즉 원본 annotation file에서 MT_RS20470라는 locus tag을 갖는 유전자가 "​MT_RS20470.p01_16540"​으로 바뀐 것이다. .p01은 유전자에서 단백질로 번역됨을 나타내는 것이겠지만 "​_16540"​은 무엇인가?​ (원래 '​_'​가 3회 반복된 것이나 DokuWiki에서 그렇게 타이핑하면 긴 가로선이 나오기 때문에 부득이하게 하나만 타이핑하였다)
 +
 +Prokka에서 만든 gff3 파일을 사용하였더니 tRNA gene을 결과물 중에 포함시키는 현상이 가끔 관찰된다.
  
 === Roary 이후 개발된 프로그램 === === Roary 이후 개발된 프로그램 ===
Line 142: Line 156:
 LS-BSR의 간단한 사용법을 알아보자. genome sequence 파일은 확장자가 .fasta가 아니면 작동을 하지 않는다. markers.fasta는 항상 유전자 LS-BSR의 간단한 사용법을 알아보자. genome sequence 파일은 확장자가 .fasta가 아니면 작동을 하지 않는다. markers.fasta는 항상 유전자
  ​염기서열 파일이어야 한다. 검색용 프로그램은 기본이 tblastn이며(단백질로 번역을 먼저 함), 만약 blastn을 쓰고 싶으면 -b blastn을 더해야 한다. -x test라고 지정하면 test라는 디렉토리를 임시로 생성하여 중간 계산 파일을 넣은 뒤, 최종  ​염기서열 파일이어야 한다. 검색용 프로그램은 기본이 tblastn이며(단백질로 번역을 먼저 함), 만약 blastn을 쓰고 싶으면 -b blastn을 더해야 한다. -x test라고 지정하면 test라는 디렉토리를 임시로 생성하여 중간 계산 파일을 넣은 뒤, 최종
- ​결과 파일은 '​test_'​로 시작하는 접두사를 갖고 만들어진다. 분석이 끝나면 test 디렉토리는 없어진다. /home/hyjeong/github/LS-BSR을 사용해라. --- //​[[hyjeong@kribb.re.kr|Haeyoung Jeong]] ​2018/04/26 15:52//+ ​결과 파일은 '​test_'​로 시작하는 접두사를 갖고 만들어진다. 분석이 끝나면 test 디렉토리는 없어진다. /usr/local/apps/LS-BSR/ls_bsr.py을 사용해라. 비록 conda를 이용하여 LS-BSR을 설치했다 하여도 이는 environment만 구성할 뿐, 실제 작동 스크립트 등은 git로 깔았기 때문이다. --- //​[[hyjeong@kribb.re.kr|Haeyoung Jeong]] ​2019/06/27 11:22//
  
   # gene screen method (peptides in interest are ready)   # gene screen method (peptides in interest are ready)
-  # /​data/​apps/​LS-BSR/​ls_bsr.py <= 스크립트 위치 
   $ python path_to_LS-BSR/​ls_bsr.py -d genomes -g markers.fasta -x test   $ python path_to_LS-BSR/​ls_bsr.py -d genomes -g markers.fasta -x test
   # de novo gene prediction method   # de novo gene prediction method
   $ python path_to_LS-BSR/​ls_bsr.py -d genomes -c usearch -x test   $ python path_to_LS-BSR/​ls_bsr.py -d genomes -c usearch -x test
  
-gene prediction method에서는 prodigal로 유전자를 예측한 뒤 단백질로 번역한 다음 usearch로 클러스터링(default:​ -i 0.9)하여 사용한다. 클러스터링 방법은 usearch/​vsearch/​cd-hit이 가능하다($PATH에 있어야 함).+계산이 끝나면 현 디렉토리에 markers.fasta가 번역된 genes.pep 파일이 생긴다. ​gene prediction method에서는 prodigal로 유전자를 예측한 뒤 단백질로 번역한 다음 usearch로 클러스터링(default:​ -i 0.9)하여 사용한다. 클러스터링 방법은 usearch/​vsearch/​cd-hit이 가능하다($PATH에 있어야 함).
  
  
to_be_renamed.1548383230.txt.gz · Last modified: 2019/01/25 11:27 by hyjeong