Finding new overlapping genes and their theory (FOG-Theory), Projekt im SPP Informations- und Kommunikationstheorie in der Molekularbiologie (InKoMBio)

Beschreibung

Ziele des Projektes sind der Nachweis neuer, überlappend protein-codierender DNA-Sequenzen aus Prokaryoten, die Untersuchung der zugrundeliegenden Codierungseigenschaften und die Untersuchung von Mechanismen der Entstehung, sowie der Evolution dieser Gene, mit Hilfe von Modellen aus der Informations- und Kommunikationstheorie. Im ersten Teil des Projektes (850/09) konnten wir zeigen, dass bakterielle Genome zahlreiche lange, nicht-zufällige offene Leserahmen enthalten, die auf überlappende Codierung hinweisen. Tatsächlich wurde mittels Datenanalyse Verfahren in mehr als 50 bakteriellen Genomen eine große Zahl an vielversprechenden Kandidaten für überlappende Gene gefunden. Experimentelle Arbeiten an EHEC Bakterien als Modellorganismus offenbarten ebenfalls eine Vielzahl von Transkriptionseinheiten, die auf überlappende Gene zurückgehen könnten. In der nächsten Periode (450/12) werden wir aufgrund der bisher erarbeiteten Daten i) die Charakteristika und Besonderheiten von überlappenden Genen mit dem Ziel einer Computer-gestützten Vorhersage und Experten-gestützten Visualisierung untersuchen, ii) die biologische Funktion identifizierter Zielgene experimentell studieren, und iii) Hypothesen zur evolutionären Entstehung und anschließenden Evolution überlappender Gene testen. Um diese Ziele zu erreichen, arbeiten unsere drei Gruppen (siehe Kooperationen) weiterhin sehr eng zusammen: Überlappende Gene werden mit multi-dimensionalen Feature-Vektoren vorhergesagt. Es werden Standardalogrithmen des maschinellen Lernens und neue Verfahren, basierend auf der Fourier Analyse Boolescher Funktionen verwendet werden. Die geplanten biologischen Experimente umfassen Transkriptom-Sequenzierung mit Next-Generation-Sequencing und Massenspektrometrie für die Protein-Identifizierung. Beide Methoden erzeugen große Mengen an Rohdaten, daher werden visuelle Analysemethoden entwickelt, um Zielgene für weitere experimentelle Arbeiten herauszufiltern. Schließlich sollen mit Hilfe der Theorie von typischen Sequenzen und genetischer Information Hypothesen zur Entstehung überlappender Genpaare getestet werden.

English:

The general goal is to find and verify new overlapping protein-coding DNA-sequences in prokaryotes, to understand the underlying coding characteristics, and to study their origin and evolution with the help of models from information and communication theory. In our first joint project (850/09), it could be shown that bacterial genomes contain many non-random long open reading frames, which could be overlapping genes. Indeed, a multitude of overlapping gene candidates have been identified using data analysis techniques in more than 50 bacterial genomes. Experimental work, using EHEC bacteria as model organism, has revealed several transcriptional units which could be overlapping genes. In the next period (450/12), we aim at using our previously acquired knowledge to i) identify the characteristics and peculiarities of overlapping genes for computational prediction and expert assessment using visualization, ii) experimentally characterize the biological function of selected overlapping gene targets, and iii) establish constraints relevant for the evolutionary origin  of overlapping genes. To reach these aims, our three groups (see Cooperation) will continue to collaborate closely: Overlapping genes are predicted using multi-dimensional feature vectors. Standard machine learning algorithms and new approaches based on the Fourier analysis of Boolean functions will be used. Biological search experiments will include high throughput methods like next-generation transcriptome sequencing and mass spectrometry for protein identification. Both approaches produce large amounts of raw data and visual analysis techniques will be developed to identify target genes for further laboratory experiments. Last, but not least, hypothesis concerning the origin of overlapping gene pairs will be investigated using the theory of typical sequences and genetic information.

Institutionen
  • AG Keim (Data Analysis and Visualization)
Publikationen
  Simon, Svenja(2015): Visual Analysis of RNAseq Data : Discovering Genes in Bacteria

Visual Analysis of RNAseq Data : Discovering Genes in Bacteria

×
RNA sequencing (RNAseq) using next-generation-sequencing (NGS) technologies allows, nowadays, to produce transcriptomic data in a high throughput fashion. However, the analysis of these large and complex biological data sets remains a great challenge. This analysis is highly of explanatory nature and requires to constantly connect observations with implicit domain knowledge. This requires interactive visual analysis systems and an expert user in the analysis loop. The challenge of designing interactive visual analysis systems for the analysis of RNAseq data demands interdisciplinary research at the interface between molecular biology and visual data analysis. However, the epistemic distance between both fields is typically very high and, therefore, knowledge gaps and interdisciplinary communication issues hamper effective collaboration. In order to bridge the knowledge gap between domain and visualization experts, I introduce the Liaison role for problem-driven research in the visualization domain which fosters a better and richer interdisciplinary communication. In this thesis, I contribute a problem characterization and task descriptions to discover and describe genes using RNAseq data. Based on the problem characterization, I identify two research gaps: First, assessing the trustworthiness of RNAseq data in the analysis and, second, discovering and relating genes to identify their functions. With the systems NGS Overlap Searcher and VisExpress, I present two visual analysis solutions that address these research gaps. Furthermore, I evaluate and apply both systems on real data sets with real experts leading to important insights for the biological domain as well as for problem-driven visualization research.

Forschungszusammenhang (Projekte)

Mittelgeber
NameKennzifferBeschreibungLaufzeit
Schwerpunktprogramm850/09DFG SPP 1395 - InKoMBio - 1. Förderphase01.03.2010 – 29.02.2012
Schwerpunktprogramm450/12DFG SPP 1395 - InKoMBio - 2. Förderphase24.01.2012 – 23.01.2014
Schwerpunktprogramm405/14DFG SPP 1395 - InKoMBio - 3. Förderphase01.07.2014 – 30.06.2015
Weitere Informationen
Laufzeit: 01.03.2010 – 30.06.2015
Link: Projekthomepage