Varyant Anotasyonunda Program karşılaştırma: Annovar,SnpEff,VEP


Piyasada 3 büyük varyant anaotasyon programı bulunuyor: 1)Annovar, 2) SnpEff, 3)VEP

Bu üç program için detaylı bir inceleme yazısını buradan okuyabilirsiniz: The State of Variant Annotation: A Comparison of AnnoVar, snpEff and VEP

Yazının güzel tarafı program geliştiricilerininde yorumlar yazarak karşılaştırmaya yardımcı olması. Anotasyon ile ilgileniyorsanız mutlaka okumalısınız.

Ben şu ana kadar Annovar ve SnpEff kullandım. İkisininde outputlarının parse edilmeye ihtiyacı var.

Kendimce karşılaştırmalarım şöyle:

  • annovar direk vcf çıktısı vermediğinden tab ile ayrılmış dosyayı kendiniz vcf yapmanız gerekiyor. Tabiki bir kod yazmak gerekiyor.
  • Ancak wannovar, ki annovar’ın web versiyonudur, çıktı olarak vcf veriyor. Bunun kötü yanı varyant listenizi webde bir yerlere koymak istemezseniz bunu kullanamayacağınız gerçeği
  • SnpEff te ise INFO kolonuna eklenen EFF bilgisini sizin parçalamanız gerekiyor. Bu işlemde en sıkıcı şey bir varyant için farklı anotasyonların yapılabileceği durumda en etkili olanı seçmek gerekiyor. En etkiliden kastım mesala bir varyant hem UTR hem ekzonik olabilir. Bu durumda exonik etkisi daha önemlidir.  GATK’nın SnpEff’i parçalayan ve en etkili anotasyonu seçen bir opsiyonu var ancak oda SnpEff’in eski versiyonlarını destekliyor. Bunun için bir kod yazmak durumunda kaldım ben mesala.
  • SnpEff in güzel tarafı istediğiniz veritabanını verip onun ilgili kolonlarını anatasyona ekleyebiliyor olması. Örneğin kendi varyant veritabanınız var, bunun bir vcf dosyasını oluşturmanız durumunda SnpEff bir vcf’i bu dosyadaki bilgiler ile anote edebiliyor.
  • Son durumda ben şuanda SnpEff kullanıyorum.
  • Annovar’la başlayıp SnpEff’e dönmemizin sebebi özellikle istediğimiz veriyi rahatlıkla anotasyonda kullanabiliyor olmamız ve çıktısının vcf olması.
  • Bence annovar’da çıktı dosyasını tab ile ayrılmış yapıdan vcf’e çevirmeli.

Son olarak, karşılaştırmayı yapan yazarın annovar’ın yazırına veridği cevapta GoldenHelix’in bir annotasyon programına girişmiş olduğu görülüyor.  Ne diyelim hayırlı olsun 🙂

Tübitak Yeni Nesil Genom Dizileme Sempozyumu


 

İleri Genom ve Biyoenformatik Araştırma Merkezi (İGBAM), farklı yeteneklerdeki kurumların ve araştırmacıların işbirliğiyle, bir canlının tüm genom diziliminin üretilmesi, saklanması ve analizini sağlamak amacı ile TÜBİTAK bünyesinde Gebze Yerleşkesi’nde Kalkınma Bakanlığı desteği ile hayata geçen bir alt yapı projesidir.

İGBAM alt yapısının tam olarak faaliyete geçmesi sebebi ile “TÜBİTAK Yeni Nesil Genom Dizileme Sempzoyumu” , 3 Kasım 2014 tarihinde, İstanbul’da Cemile Sultan Korusunda gerçekleşmiştir.

Sempozyuma ait bilgiler web sayfasından incelenebilir: http://www.igbam.bilgem.tubitak.gov.tr/tr/sempozyum/sempozyum.html

Bir ailenin genel kullanıma açık genom verisi


Kendisi bir biyoenformatikçi olan Manuel Corpas, 2011’de ailesine ait SNP genom verisini genel kullanıma açar. Daha sonra oğlunun exome verisini daha sonra anne,baba,oğul,kızdan oluşan dörtlünün exome verisi ve en son bir yüz dna’sından metagenom verisi.

Ailenin SNP ve sadece oğlulun exome veri analiz sonuçları bir paper olur: Glusman et al. Low budget analysis of Direct-To-Consumer genomic testing familial data. F1000Res. 2012 Jul 16;1:3).

Manuel Corpas dilinden genom paylaşmaının hikayesi:  crowdsourcing the corpasome

Ailenin genom verisi ile ilgili maceraları ilgili blogtan takip edilebilir: http://manuelcorpas.com/

  1. http://manuelcorpas.com/2011/07/12/getting-my-genome-sequencing-done-part-i/
  2. http://manuelcorpas.com/2011/09/12/getting-my-genome-sequencing-done-part-ii/

Hatta ailenin genom verisi ile SNPedia programının oluşturduğu grafikler bir batteniyeye basılıyor ve bu şuanda bir müzedeymiş.

The above genomic visualization has led to the representation of the genomic data of one family member in a blanket. This blanket is now kept at the Tilburg Textile Museum in Amsterdam.

Blanket showing the genomic information of a million genetic markers for a member of the family in all chromosomes
Blanket showing the genomic information of a million genetic markers for a member of the family in all chromosomes

Biography

Manuel Corpas is a genome bioinformatician currently leading a group that analyses plant and animal genomes at a research institute in the UK. He has previously worked on a database that collects the genomes of patients afflicted with severe genomic disorders. He holds a PhD in Bioinformatics from the University of Manchester, UK and a BSc in Biology (University of Navarre, Spain). He has been a visiting scholar at the Virginia Bioinformatics Institute and the San Diego Supercomputer Center (US). In 2004 he founded the International Society for Computational Biology (ISCB) Student Council, a leading student organization in the field. Manuel has been involved in many ISCB-related events ever since.

———————–

özetle çok ilginç bir paylaşım.

Computational Biologist vs Experimental Biologist


Hesaplamalı tarafta olmak güzel 🙂

Genel kullanıma açık mikrodizi verisetleri


  1. Bipolar disorder: dorsolateral prefrontal cortex: 
    1. Veri seti: 22283 gen, 61 örnek (31 kontrol,  30 bipolar hasta) 
    2. Erişim: http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS2190
    3. Yayın:  Ryan MM, Lockstone HE, Huffaker SJ, Wayland MT et al. Gene expression analysis of bipolar disorder reveals downregulation of the ubiquitin cycle and alterations in synaptic genes. Mol Psychiatry 2006 Oct;11(10):965-78. PMID: 16894394
  2. Hipertansiyon
    1. Veri seti: 22184 gen, 159 örnek (82 kontrol,  77 hasta)
    2. Erişim: http://ms.iis.sinica.edu.tw/microarray/index.htm
    3. Yayın:
      1. K. S. Lynn, L. L. Li, Y. J. Lin, C. H. Wang, S. H. Sheng, J. H. Lin, et al., “A neural network model for constructing endophenotypes of common complex diseases: an application to male young-onset hypertension microarray data,” Bioinformatics, vol. 25, pp. 981-988, Apr 15 2009.
      2. Z. Gormez, O. Kursun, A. Sertbas, N. Aydin, and H. Seker, “Statistical bias and variance of gene selection and cross validation methods: A case study on hypertension prediction,” in Biomedical and Health Informatics (BHI), 2012 IEEE-EMBS International Conference on, 2012, pp. 616-619.
      3. Gormez, Z., Seker, H., Sertbas, A., (2014), “Çok Amaçli Optimizasyon Yöntemleri Kullanarak Hipertansiyon Tahmini“, IEEE 22. IEEE 22. Sinyal İşleme ve İletişim Uygulamaları Kurultayı, SİU 2014, Trabzon, Türkiye, Nisan 2014
  3. Gliomas of grades III and IV (HG-U133B)
    1. Veri seti: 22 645 gen, 85 örnek (20 grades III, 59 grades IV)
    2. Erişim: http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS1976
    3. Yayın: Freije WA, Castro-Vargas FE, Fang Z, Horvath S et al. Gene expression profiling of gliomas strongly predicts survival. Cancer Res2004 Sep 15;64(18):6503-10. PMID: 15374961
  4. Sarcoma and hypoxia
    1. Veri seti: 22 283 gen, 54 örnek (15 kontrol, 39 hasta)
    2. Erişim: http://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS1209
    3. Yayın:
      1. Detwiller KY, Fernando NT, Segal NH, Ryeom SW et al. Analysis of hypoxia-related gene expression in sarcomas and effect of hypoxia on RNA interference of vascular endothelial cell growth factor A. Cancer Res 2005 Jul 1;65(13):5881-9. PMID: 15994966
      2. Yoon SS, Segal NH, Park PJ, Detwiller KY et al. Angiogenic profile of soft tissue sarcomas based on analysis of circulating factors and microarray gene expression. J Surg Res 2006 Oct;135(2):282-90. PMID: 16603191

Homozygosity Mapping Tool-HomSI


Graphical representation of genome-wide homozygosity map

HomSI Color Coding for Homozygosity Mapping

Homozygosity map of chromosome

HomSI: a homozygous stretch identifier from next-generation sequencing data

A tool that identifies homozygous regions using deep sequence data.

Summary: In consanguineous families, as a result of inheriting the same genomic segments through both parents, the individuals have stretches of their genomes that are homozygous. This situation leads to the prevalence of recessive diseases among the members of these families. Homozygosity mapping is based on this observation, and in consanguineous families, several recessive disease genes have been discovered with the help of this technique. The researchers typically use single nucleotide polymorphism arrays to determine the homozygous regions and then search for the disease gene by sequencing the genes within this candidate disease loci. Recently, the advent of next-generation sequencing enables the concurrent identification of homozygous regions and the detection of mutations relevant for diagnosis, using data from a single sequencing experiment. In this respect, we have developed a novel tool that identifies homozygous regions using deep sequence data. Using *.vcf (variant call format) files as an input file, our program identifies the majority of homozygous regions found by microarray single nucleotide polymorphism genotype data.

Availability and implementation: HomSI software is freely available at http://ce.istanbul.edu.tr/zgormez/paper/HomSI/index.html , with an online manual.

Publications:

  1. Gormez Z., Bakir-Gungor B., Sagiroglu M.S. (2014) HomSI: Homozygous Stretch Identifier from Next-generation Sequencing Data. Bioinformatics (2014) 30 (3): 445-447

Links:

TÜBİTAK, 4 Hastalığa Neden Olan Genlerin Şifresini Çözdü


TÜBİTAK kriptoloji uzmanlarının yaptığı ve Türkiye’de ilk defa insan genomunun dizilendiği araştırmalarda 4 hastalık ile genler arasındaki ilişki ortaya çıkarıldı.

TÜBİTAK kriptoloji uzmanlarının yaptığı araştırmalarda 4 hastalık ile genler arasındaki ilişki ortaya çıkarıldı. Türkiye’de ilk defa insan genomunun dizilendiği araştırmalar yapıldığını açıklayan Bilim, Sanayi ve Teknoloji Bakanı Nihat Ergün, “Klippel-Feil sendromu olarak bilinen ve doğuştan gelen boyun omurgasındaki oluşum bozukluğuyla ilgili gen tespit edildi. Bunun yanında damarların kontrolsüz genişlemesi sonucu ortaya çıkan tümörler ile ilgili genetik tabanlı mekanizmalar aydınlığa çıkıyor. Diğer iki hastalık ise doğuştan gelen kafa ve yüz bölgesinin ciddi oluşum bozukluklarına neden olan gendir.” dedi.

Canlıların karakteristik özelliklerini belirleyen en küçük yapı birimi olan “gen” alanındaki çalışmalarını yoğunlaştıran TÜBİTAK, İleri Genom ve Biyoenformatik Merkezi adıyla Türkiye’nin en gelişmiş gen laboratuvarını kurdu. Kalkınma Bakanlığı’nın desteğiyle kurulan merkez ile Türkiye’de ilk defa insan genomunu dizileyecek laboratuvarlar ile bu genomları analiz edecek bilgisayar alt yapısı kuruldu. Genom dizileme ile ilgili biyolojik işlemleri TÜBİTAK MAM Gen Mühendisliği ve Biyoteknoloji Enstitüsü yerine getirirken, genom analizlerini ise TÜBİTAK BİLGEM Ulusal Elektronik ve Kriptoloji Araştırma Enstitüsü (UEKAE) uzmanları yapıyor. Böylece, TÜBİTAK’ın araştırmacıları şifre çözme konusundaki tecrübelerini genetik verilerin analizinde de kullanıyor. Aynı zamanda, gelecekte kullanımı giderek yaygınlaşacak genetik verilerin erişimi, saklanması ve işleme metotları hakkında da araştırmalar yürütülüyor.

Bakan Ergün: Türkiye’de Bir İlk Başarıldı

İleri Genom ve Biyoenformatik Merkezi’nin Türkiye’de bir ilki başardığını ifade eden Bakan Ergün, 10 tüm genomun ülke sınırları içinde dizilenerek analiz edildiğini belirtti. 250 exome dizilemesi yapılarak genlerin fonksiyonları konusunda çalışmalar yürütüldüğüne değinen Bakan Ergün, “Bir sene gibi kısa bir zamanda, Cumhuriyet ve Hacettepe Üniversitesi ile işbirliği içinde 4 hastalıkla ilişkili genler tespit edildi. Bunlardan birisi  ‘Klippel-Feil’ sendromu. Yani boyun omurgasındaki oluşum bozukluğundan dolayı boyun hareketlerinde kısıtlılık ve kısa boyun olarak kliniğe yansıyan doğuştan gelen bir hastalık. Bunun yanında insanlarda ciddi doğumsal anomalilerine yol açan 3 hastalığa neden olan genler bulundu. Bunlardan birisi vasküler sistemde yetmezliğe yol açan ve damar gelişimini ilgilendiren hayati bir gen. Bu keşifte vasküler tümörlerde şu ana kadar bilinmeyen bir mekanizmayı aydınlığa çıkarma yönündeki ilk adım tamamlandı. Diğer iki hastalık kafa ve yüz bölgesinin doğumsal anomalilerini ilgilendiren ciddi malformasyonlar. Şizofreniden yaygın hastalıklara kadar giden geniş bir spektrumda hastalık grubu ile de exom ve tüm genom çalışmaları da karşılaştırmalı olarak devam ediyor. Beş hastalığa ilişkin tespit edilen genlerle ilgili doğrulama çalışmaları devam ediyor.” dedi.

“Kişisel Tıp Çağına Girildi”

İnsan gen haritasının tamamlanmasıyla tıp alanında kişisel tıp olarak adlandırılan yeni bir çağa girildiğini belirten Bakan Ergün, hastalıklara karşı standart tedavi yöntemi yerine kişinin genetik yapısı göz önünde bulundurularak özel tedavi yöntemleri kullanılacağını kaydetti. Bakan Ergün, şunları söyledi: “Bu geleceğin bilincinde olan TÜBİTAK, bünyesinde yüksek-kapasiteli DNA dizileme laboratuvarları ve bu laboratuvarların üreteceği yüksek hacimli verileri analiz edecek olan ve kriptoculardan oluşan bir ekip kurdu. Böylece, TÜBİTAK’ın araştırmacıları şifre çözme konusundaki tecrübelerini genetik verilerin analizinde de kullanıyor. Bu ekip bir yıl gibi kısa bir sürede Türkiye için birçok ilki gerçekleştirdi. Benzer çalışmaları yapan dünyada 20 civarında ülke var. Bizim bu ülkelerden farkımız, akraba evliliklerinden dolayı araştırma yapılacak vaka sayısının coğrafyamızda daha fazla olmasıdır. Diğer ülkelerde her ne kadar dizileme alt yapısı var olsa ve araştırma potansiyelleri yüksek olsa da genellikle vaka Türkiye’den veyahut Türkiye gibi ülkelerden gitmekte. Bu durum, genomik çalışmaların devam etmesi durumunda bizim için avantaj, devam etmemesi durumunda veriler dışarıya gideceği için dezavantaj oluşturacaktır.”

Gen Şifreleri Koruma Altında

Şimdiye kadar dizileme teknolojilerine dayalı tıbbi tanı ve araştırmalar için tüm numunelerin yurt dışına gönderildiğini dile getiren Bakan Ergün, bu sebeple numunelerin yollandığı ülkelerde Türkiye’ye ait genomik veri bankaları oluşturulduğuna dikkat çekti. Bu verilerin gelecekte ülkemiz için tehdit oluşturma potansiyeli olduğunu vurgulayan Ergün, “Bir ülkenin genomik verisinin o ülkenin ulusal güvenliği açısından değerini bilen TÜBİTAK BİLGEM kriptoloji enstitüsü UEKAE, gerek genomik verilerin analizi gerekse verilerin güvenliği konusunda ulusal ve uluslararası düzeyde çalışmalarını sürdürüyor. Böyle bir konuyu dünyada ilk defa şifre bilimi ve güvenlik konularında başarılı bir geçmişi olan enstitü çalışıyor. Şimdi bu nitelikli ve özel verilerin yurt dışına gidişi kesildi ve önemli bir eksik giderildi.” diye konuştu.

 

kaynak: http://www.tubitak.gov.tr/tr/haber/tubitak-4-hastaliga-neden-olan-genlerin-sifresini-cozdu

——————————————————

Fatih Bayrakli, Bulent Guclu, Cengiz Yakicier, Hatice Balaban, Ugur Kartal, Bekir Erguner, Mahmut Samil Sagiroglu, Sirin Yuksel, Ahmet Rasit Ozturk, Burak Kazanci, Unal Ozum, and Hamit Zafer Kars, “Mutation in MEOX1 gene causes a recessive Klippel-Feil syndrome subtype,” BMC Genetics, no. 1. p. 95, 2013.

Mutation in MEOX1 gene causes a recessive Klippel-Feil syndrome subtype

 

Alanay Y, Ergüner B, Utine E, Haçarız O, Kiper PO, Taşkıran EZ, Perçin F, Uz E, Sağıroğlu MS, Yuksel B, Boduroglu K, Akarsu NA., “TMCO1 deficiency causes autosomal recessive cerebrofaciothoracic dysplasia”. Am J Med Genet Part A 9999:1–14, Nov 2013.

tmco1-tubitak

ftp.broadinstitute.org ‘dan bundle versiyonları indirme


Hiç bir kullanıcı belirtmeksizin ftp.broadinstitute.org’a bağlanıldığında bundle klasörü görünmüyor. Dolayısı ile giriş için aşağıdaki gibi  gsapubftp-anonymous kullanıcısı ile giriş yapmak gerekiyor.

Bir ftp programı(Filezilla) yardımıyla:

location: ftp.broadinstitute.org/bundle
username: gsapubftp-anonymous
password: <blank>

Ftp programı olmaksızın, tarayıcı ile ftp klasörlerinde gezinmek, ne nerde diye görmek için

ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle

kaynak: How can I access the GSA public FTP server?

dosyaların doğru indiğini kontrol etmek ve sıkıştırılmış dosyaları açmak için aşağıdaki işlemler yapılır.

ls *.md5 | awk '{print "sed -i \x27s|/humgen/gsa-scr1/pub/bundle/1.5/hg19/||\x27 " $0}' | bash # replace the absolute paths in all the md5 files
ls *.md5 | awk '{print "md5sum -c " $0}' | bash # check all the md5sums - if any are not 'OK' then stop here.
ls *.gz | awk '{print "gunzip " $0}' | bash # decompress all the gz files

kaynak: Exome sequencing pipeline using GATK

TUBİTAK Biyoenformatik Yaz Okulu 2013


TÜBİTAK BİLGEM Ulusal Elektronik ve Kriptoloji Araştırma Enstitüsü’nün düzenlediği:

  1. “Üniversite Öğrencileri İçin 2013 Biyoenformatik Yaz Okulu” etkinliği 25-29 Ağustos 2013 tarihleri arasında gerçekleşmiştir.
  2. “Lise Öğrencileri İçin 2013 Biyoenformatik Yaz Okulu” etkinliği 01 – 06 Eylül 2013 tarihleri arasında gerçekleşmiştir.

Eğitimler İleri Genom ve Biyoenformatik Araştırma Grubu (İGBAM) tarafından gerçekleştirilmiştir.

Geçmiş eğitimler için başvuru koşulları, katılımcılar ve eğtim programı hakkında tüm bilgileri etkinlikler sayfasından bulabilirsiniz. Ayrıca gelecek eğeitimleri yine bu sayfadan takip edebilirsiniz.

TUBİTAK desteği ile gerçekleştirilen bu eğitimlerde katılımcılarda hiç bir ücret alınmamıştır.  Başvuru, ulaşım, eğitim, yemek ve konaklama ücretleri TUBİTAK projesinden sağlanmıştır.

 

GoldenHelix- Knowing Your NGS Downstream: Functional Predictions


Abstract

Next-Generation Sequencing analysis workflows typically lead to a list of candidate variants that may or may not be associated with the phenotype of interest. Any given analysis may result in tens, hundreds, or even thousands of genetic variants which must be screened and prioritized for experimental validation before a causal variant may be identified. To assist with this screening process, the field of bioinformatics has developed numerous algorithms to predict the functional consequences of genetic variants. Algorithms like SIFT and PolyPhen-2 are firmly established in the field and are cited frequently. Other tools, like MutationAssessor and FATHMM are newer and perhaps not known as well.

This presentation will review several of the functional prediction tools that are currently available to help researchers determine the functional consequences of genetic alterations. The biological principals underlying functional predictions will be discussed together with an overview of the methodology used by each of the predictive algorithms. Finally, we will discuss how these predictions can be accessed and used within the Golden Helix SNP & Variation Suite (SVS) software.

http://www.goldenhelix.com/Events/recordings/knowing-your-ngs-downstream/index.html