User Tools

Site Tools


to_be_renamed

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
Last revision Both sides next revision
to_be_renamed [2019/03/14 09:53]
hyjeong [LS-BSR]
to_be_renamed [2019/04/23 13:15]
hyjeong [Roary]
Line 95: Line 95:
 {{ :​svg.png?​400 |}} {{ :​svg.png?​400 |}}
  
 +=== Strain-specific gene 찾기 ===
 +R에서 gene_presence_absence.Rtab과 gene_presence_absence.csv 두 파일을 다루면 된다. 다음의 사례에서는 Lb_1-46 균주에서 특이적인 유전자의 id를 추출하는 사례를 보여준다. Lb_1-46은 데이터프레임으로 읽어들이면 Lb_1.46으로 바뀌는 것에 유의해라. 구글링을 잘 하면 이를 원래 이름 그대로 유지하는 방법이 있다([[https://​blog.genoglobe.com/​2018/​12/​r-readtable.html|하루에 한 R 관련글]]).
 +  > dat = read.table("​gene_presence_absence.Rtab",​sep="​\t",​header=T,​row.names=1) ​
 +  > dat$Lb_1.46
 +  > dat.s = subset(dat, rowSums(as.matrix(dat))==1)
 +  > Lb.s = dat.s[which(dat.s$Lb_1.46==1),​]
 +  > Lb.s.genes = rownames(Lb.s)
 +  > dat.2 = read.table("​gene_presence_absence.csv",​sep=",",​header=T,​row.names=1)
 +  > dat.2$Lb_1.46
 +  > dat.f = dat.2[which(rownames(dat.2) %in% Lb.s.genes),​]
 +  > dat.f$Lb_1.46
 +  > write.table(dat.f$Lb_1.46,"​out.txt",​sep="​\t",​quote=F,​col.names=F)
 === 기타 해결할 문제 === === 기타 해결할 문제 ===
 결과 파일을 열어보면 일부 단백질의 ID가 변형되어 쓰인 것을 알 수 있다. 즉 원본 annotation file에서 MT_RS20470라는 locus tag을 갖는 유전자가 "​MT_RS20470.p01_16540"​으로 바뀐 것이다. .p01은 유전자에서 단백질로 번역됨을 나타내는 것이겠지만 "​_16540"​은 무엇인가?​ (원래 '​_'​가 3회 반복된 것이나 DokuWiki에서 그렇게 타이핑하면 긴 가로선이 나오기 때문에 부득이하게 하나만 타이핑하였다) 결과 파일을 열어보면 일부 단백질의 ID가 변형되어 쓰인 것을 알 수 있다. 즉 원본 annotation file에서 MT_RS20470라는 locus tag을 갖는 유전자가 "​MT_RS20470.p01_16540"​으로 바뀐 것이다. .p01은 유전자에서 단백질로 번역됨을 나타내는 것이겠지만 "​_16540"​은 무엇인가?​ (원래 '​_'​가 3회 반복된 것이나 DokuWiki에서 그렇게 타이핑하면 긴 가로선이 나오기 때문에 부득이하게 하나만 타이핑하였다)
 +
 +Prokka에서 만든 gff3 파일을 사용하였더니 tRNA gene을 결과물 중에 포함시키는 현상이 가끔 관찰된다.
  
 === Roary 이후 개발된 프로그램 === === Roary 이후 개발된 프로그램 ===
Line 149: Line 163:
   $ python path_to_LS-BSR/​ls_bsr.py -d genomes -c usearch -x test   $ python path_to_LS-BSR/​ls_bsr.py -d genomes -c usearch -x test
  
-gene prediction method에서는 prodigal로 유전자를 예측한 뒤 단백질로 번역한 다음 usearch로 클러스터링(default:​ -i 0.9)하여 사용한다. 클러스터링 방법은 usearch/​vsearch/​cd-hit이 가능하다($PATH에 있어야 함).+계산이 끝나면 현 디렉토리에 markers.fasta가 번역된 genes.pep 파일이 생긴다. ​gene prediction method에서는 prodigal로 유전자를 예측한 뒤 단백질로 번역한 다음 usearch로 클러스터링(default:​ -i 0.9)하여 사용한다. 클러스터링 방법은 usearch/​vsearch/​cd-hit이 가능하다($PATH에 있어야 함).
  
  
to_be_renamed.txt · Last modified: 2019/06/27 11:24 by hyjeong