Ziele des Projektes sind der Nachweis neuer, überlappend protein-codierender DNA-Sequenzen aus Prokaryoten, die Untersuchung der zugrundeliegenden Codierungseigenschaften und die Untersuchung von Mechanismen der Entstehung, sowie der Evolution dieser Gene, mit Hilfe von Modellen aus der Informations- und Kommunikationstheorie. Im ersten Teil des Projektes (850/09) konnten wir zeigen, dass bakterielle Genome zahlreiche lange, nicht-zufällige offene Leserahmen enthalten, die auf überlappende Codierung hinweisen. Tatsächlich wurde mittels Datenanalyse Verfahren in mehr als 50 bakteriellen Genomen eine große Zahl an vielversprechenden Kandidaten für überlappende Gene gefunden. Experimentelle Arbeiten an EHEC Bakterien als Modellorganismus offenbarten ebenfalls eine Vielzahl von Transkriptionseinheiten, die auf überlappende Gene zurückgehen könnten. In der nächsten Periode (450/12) werden wir aufgrund der bisher erarbeiteten Daten i) die Charakteristika und Besonderheiten von überlappenden Genen mit dem Ziel einer Computer-gestützten Vorhersage und Experten-gestützten Visualisierung untersuchen, ii) die biologische Funktion identifizierter Zielgene experimentell studieren, und iii) Hypothesen zur evolutionären Entstehung und anschließenden Evolution überlappender Gene testen. Um diese Ziele zu erreichen, arbeiten unsere drei Gruppen (siehe Kooperationen) weiterhin sehr eng zusammen: Überlappende Gene werden mit multi-dimensionalen Feature-Vektoren vorhergesagt. Es werden Standardalogrithmen des maschinellen Lernens und neue Verfahren, basierend auf der Fourier Analyse Boolescher Funktionen verwendet werden. Die geplanten biologischen Experimente umfassen Transkriptom-Sequenzierung mit Next-Generation-Sequencing und Massenspektrometrie für die Protein-Identifizierung. Beide Methoden erzeugen große Mengen an Rohdaten, daher werden visuelle Analysemethoden entwickelt, um Zielgene für weitere experimentelle Arbeiten herauszufiltern. Schließlich sollen mit Hilfe der Theorie von typischen Sequenzen und genetischer Information Hypothesen zur Entstehung überlappender Genpaare getestet werden.ppEnglish:pThe general goal is to find and verify new overlapping protein-coding DNA-sequences in prokaryotes, to understand the underlying coding characteristics, and to study their origin and evolution with the help of models from information and communication theory. In our first joint project (850/09), it could be shown that bacterial genomes contain many non-random long open reading frames, which could be overlapping genes. Indeed, a multitude of overlapping gene candidates have been identified using data analysis techniques in more than 50 bacterial genomes. Experimental work, using EHEC bacteria as model organism, has revealed several transcriptional units which could be overlapping genes. In the next period (450/12), we aim at using our previously acquired knowledge to i) identify the characteristics and peculiarities of overlapping genes for computational prediction and expert assessment using visualization, ii) experimentally characterize the biological function of selected overlapping gene targets, and iii) establish constraints relevant for the evolutionary origin of overlapping genes. To reach these aims, our three groups (see Cooperation) will continue to collaborate closely: Overlapping genes are predicted using multi-dimensional feature vectors. Standard machine learning algorithms and new approaches based on the Fourier analysis of Boolean functions will be used. Biological search experiments will include high throughput methods like next-generation transcriptome sequencing and mass spectrometry for protein identification. Both approaches produce large amounts of raw data and visual analysis techniques will be developed to identify target genes for further laboratory experiments. Last, but not least, hypothesis concerning the origin of overlapping gene pairs will be investigated using the theory of typical sequences and genetic information.