User Tools

Site Tools


to_be_renamed

Differences

This shows you the differences between two versions of the page.

Link to this comparison view

Both sides previous revision Previous revision
Next revision
Previous revision
to_be_renamed [2019/03/14 10:03]
hyjeong [LS-BSR]
to_be_renamed [2019/04/23 13:15] (current)
hyjeong [Roary]
Line 95: Line 95:
 {{ :​svg.png?​400 |}} {{ :​svg.png?​400 |}}
  
 +=== Strain-specific gene 찾기 ===
 +R에서 gene_presence_absence.Rtab과 gene_presence_absence.csv 두 파일을 다루면 된다. 다음의 사례에서는 Lb_1-46 균주에서 특이적인 유전자의 id를 추출하는 사례를 보여준다. Lb_1-46은 데이터프레임으로 읽어들이면 Lb_1.46으로 바뀌는 것에 유의해라. 구글링을 잘 하면 이를 원래 이름 그대로 유지하는 방법이 있다([[https://​blog.genoglobe.com/​2018/​12/​r-readtable.html|하루에 한 R 관련글]]).
 +  > dat = read.table("​gene_presence_absence.Rtab",​sep="​\t",​header=T,​row.names=1) ​
 +  > dat$Lb_1.46
 +  > dat.s = subset(dat, rowSums(as.matrix(dat))==1)
 +  > Lb.s = dat.s[which(dat.s$Lb_1.46==1),​]
 +  > Lb.s.genes = rownames(Lb.s)
 +  > dat.2 = read.table("​gene_presence_absence.csv",​sep=",",​header=T,​row.names=1)
 +  > dat.2$Lb_1.46
 +  > dat.f = dat.2[which(rownames(dat.2) %in% Lb.s.genes),​]
 +  > dat.f$Lb_1.46
 +  > write.table(dat.f$Lb_1.46,"​out.txt",​sep="​\t",​quote=F,​col.names=F)
 === 기타 해결할 문제 === === 기타 해결할 문제 ===
 결과 파일을 열어보면 일부 단백질의 ID가 변형되어 쓰인 것을 알 수 있다. 즉 원본 annotation file에서 MT_RS20470라는 locus tag을 갖는 유전자가 "​MT_RS20470.p01_16540"​으로 바뀐 것이다. .p01은 유전자에서 단백질로 번역됨을 나타내는 것이겠지만 "​_16540"​은 무엇인가?​ (원래 '​_'​가 3회 반복된 것이나 DokuWiki에서 그렇게 타이핑하면 긴 가로선이 나오기 때문에 부득이하게 하나만 타이핑하였다) 결과 파일을 열어보면 일부 단백질의 ID가 변형되어 쓰인 것을 알 수 있다. 즉 원본 annotation file에서 MT_RS20470라는 locus tag을 갖는 유전자가 "​MT_RS20470.p01_16540"​으로 바뀐 것이다. .p01은 유전자에서 단백질로 번역됨을 나타내는 것이겠지만 "​_16540"​은 무엇인가?​ (원래 '​_'​가 3회 반복된 것이나 DokuWiki에서 그렇게 타이핑하면 긴 가로선이 나오기 때문에 부득이하게 하나만 타이핑하였다)
 +
 +Prokka에서 만든 gff3 파일을 사용하였더니 tRNA gene을 결과물 중에 포함시키는 현상이 가끔 관찰된다.
  
 === Roary 이후 개발된 프로그램 === === Roary 이후 개발된 프로그램 ===
to_be_renamed.1552525414.txt.gz · Last modified: 2019/03/14 10:03 by hyjeong