Am Institut für Informationsverarbeitung (TNT) entwickeln wir Methoden zur Verarbeitung und Analyse von DNA-Sequenzierungsdaten. Die Fortschritte in der Entwicklung von Hoch-Durchsatz-Technologien zur Sequenzierung haben das Potential, die Verwendung von Sequenzierungsdaten als tägliche Praxis in verschiedenen Bereichen zu ermöglichen. Allerdings übersteigen die IT-Kosten im Zusammenhang mit der Speicherung, Übertragung und Verarbeitung großer Mengen von Sequenzierungsdaten die Kosten für die Durchführung der tatsächlichen Sequenzierung inzwischen erheblich. Mit unserer Arbeit möchten wir diese Daten in großer Menge nutzbar machen, um zum Beispiel Ihre breite Anwendung in der personalisierten Medizin zu ermöglichen.
Bei der DNA-Sequenzierung wird zunächst eine auszulesende Sequenz fragmentiert. Die Fragmente werden zunächst vervielfacht und abschließend von einer Sequenzierungsmaschine ausgelesen. Alle bekannten Technologien zur Sequenzierung sind grundsätzlich fehlerbehaftet. Aus diesem Grund wird jeder ausgelesenen Base ein Qualitätswert zugeordnet. Die ausgelesenen Fragmente werden als Reads bezeichnet und zusammen mit den Qualitätswerten in FASTQ-Dateien gespeichert. Weitere Verarbeitungsschritte sind das Alignment der Reads, mit dem Ziel die zugrundeliegende DNA-Sequenz zu rekonstruieren, und die Identifizierung von Strukturvarianten des sequenzierten Materials.
In unseren Arbeiten beschäftigen wir uns insbesondere mit Kompressionsverfahren für alignierte Reads sowie mit der transparenten verlustbehafteten Kompression von Qualitätswerten.
Die MPEG-G-Standardserie ist das erste ISO/IEC-Projekt zur Speicherung und Übertragung von Sequenzierungsdaten. Weite Teile unserer Arbeiten sind in MPEG-G eingegangen.
Sequenz-Alignment, Verlustbehaftete Kompression, Maschinelles Lernen, Entropiecodierungsverfahren
[1] Ibrahim Numanagic, James K Bonfield, Faraz Hach, Jan Voges, Jörn Ostermann, Claudio Alberti, Marco Mattavelli, S Cenk Sahinalp. Comparison of high-throughput sequencing data compression tools. Nature Methods 13(12), pp. 1005–1008, 2016.
[2] Jan Voges, Jörn Ostermann, Mikel Hernaez. CALQ: compression of quality values of aligned sequencing data. Bioinformatics 34(10), pp. 1650–1658, 2018
[3] Claudio Alberti, Noah Daniels, Mikel Hernaez, Jan Voges, Rachel L Goldfeder, Ana A Hernandez-Lopez, Marco Mattavelli, Bonnie Berger. An Evaluation Framework for Lossy Compression of Genome Sequencing Quality Values. 2016 Data Compression Conference (DCC), pp. 221–230, Snowbird, UT (US), 2016.
[4] Claudio Alberti, Tom Paridaens, Jan Voges, Daniel Naro, Junaid J. Ahmad, Massimo Ravasi, Daniele Renzi, Giorgio Zoia, Idoia Ochoa, Marco Mattavelli, Jaime Delgado, Mikel Hernaez. An introduction to MPEG-G, the new ISO standard for genomic information representation. bioRxiv preprint, 2018.