Автор: Беляева Олеся Ивановна
1. Введение
Геномы эукариот характеризуются повсеместной транскрипцией, в результате которого транскрибируется большое число некодирующих РНК (нкРНК). Среди них особый интерес представляют длинные некодирующие РНК (днкРНК) — транскрипты длиной более 200 нуклеотидов, не кодирующие белки. Несмотря на то, что функциональная роль большинства днкРНК остается нераскрытой, известно, что они играют ключевую роль в различных клеточных процессах, включая эпигенетическую регуляцию, контроль транскрипции, сплайсинг и клеточную дифференцировку [1, 2].
Одним из мощных подходов к пониманию функции генетических элементов является эволюционный анализ. Принцип эволюционной консервативности предполагает, что геномные последовательности, выполняющие важные функции, будут сохраняться в процессе естественного отбора [3]. Поэтому идентификация консервативных элементов среди днкРНК позволяет сузить круг кандидатов для последующих функциональных исследований. В то же время, наличие видоспецифичных или быстро эволюционирующих днкРНК может указывать на их роль в формировании уникальных признаков таксона [4].
В настоящее время каталоги генов, такие как Ensembl, содержат аннотации тысяч генов днкРНК, многие из которых, однако, остаются «генами-загадками» без какой-либо функциональной или эволюционной характеристики. К таким генам относятся ENSG00000288547 и ENSG00000280197. Предварительный биоинформатический анализ указывает, что оба гена транскрибируются в днкРНК, но их эволюционная история, степень консервативности и потенциальная биологическая роль совершенно не изучены.
Цель: выяснить у каких еще организмов присутствует выбранный ген
Актуальность: Выяснение хода эволюции генов поможет понять, как они изменились и как это повлияло на физиологические функции.
Задачи исследования:
1. Изучить и сравнить источники и дополнительную литературу.
2. Выбрать животных
3. Скачать последовательности генов
4. Скачать геномы животных
5. Сгенерировать hmm базы
6. Поставить выравнивание
7. Сделать bad файлы с гомологичными генам последовательностям
8. Проанализировать полученные результаты.
9. Сформулировать выводы.…
2. Обзор выбранных генов
ENSG00000288547
Это очень плохо изученный ген, и информация о нем крайне ограничена. Почти все, что мы о нем знаем, получено из вычислительных предсказаний, а не экспериментальных данных.
Основная информация
Идентификатор: ENSG00000288547
Тип гена: Псевдоген (Pseudogene)
Локализация (согласно Ensembl): Хромосома 1 (Chromosome 1)
Источник: Этот идентификатор присвоен проектом ENSEMBL. В других базах данных (например, NCBI's RefSeq) у этого гена может не быть аналога или он может быть обозначен по-другому.
Что такое псевдоген? Псевдогены — это "генетические реликты", которые похожи на нормальные рабочие гены, но потеряли способность производить функциональный белок. Они являются "молекулярными окаменелостями" и важны для изучения эволюции генома. Характеристики ENSG00000288547 согласно базе данных ENSEMBL:
Тип псевдогена: Процессированный псевдоген (Processed pseudogene). Это означает, что он возник в результате "обратной транскрипции" — когда матричная РНК (мРНК) какого-то рабочего гена была обратно скопирована в ДНК и вставлена в случайное место генома. Такие псевдогены обычно не имеют интронов, не имеют промотора, часто неактивны. Родительский ген: Компьютерный анализ показывает, что этот псевдоген, вероятно, произошел от гена RPL7 (или очень на него похож). RPL7 кодирует рибосомальный белок, который является ключевым компонентом рибосомы — клеточной "фабрики" по производству белков.
Функция: Как и большинство псевдогенов, ENSG00000288547, скорее всего, не кодирует функциональный белок. Его первоначальная функция была утеряна. Возможно (но не точно) некоторые из псевдогенов могут играть регуляторные роли. Итог ENSG00000288547 — это предсказанный процессированный псевдоген, вероятно, произошедший от гена рибосомального белка RPL7. На сегодняшний день он считается нефункциональным "остатком" гена, и его биологическая роль, если она есть, неизвестна.
ENSG00000280197
Этот ген является некодирующей РНК и имеет несколько важных особенностей. Основная информация
Идентификатор: ENSG00000280197
Название гена: ALMS1-IT1 (ALMS1 Intronic Transcript 1)
Тип гена: Длинная некодирующая РНК (lncRNA)
Локализация: Хромосома 2 (2p13.1)
Источник: Идентификатор присвоен проектом ENSEMBL.
В отличие от предыдущего гена, это не псевдоген, а функциональная некодирующая РНК. Ген ALMS1-IT1 расположен внутри интрона другого, гораздо более крупного и важного гена — ALMS1. Ген ALMS1 мутации в котором вызывают редкое наследственное заболевание — синдром Альстрёма. Он транскрибируется в молекулу РНК, которая не служит инструкцией для синтеза белка. Вместо этого сама РНК выполняет регуляторные функции. Хотя точный механизм действия изучается, гены типа "IT" (intronic transcript) часто участвуют в регуляции своего "родительского" гена. Существуют научные публикации, которые изучают ALMS1-IT1. Потенциальная функция: Предполагается, что эта lncRNA может участвовать в регуляции экспрессии гена ALMS1 на эпигенетическом уровне (например, влияя на упаковку ДНК) или на уровне транскрипции. Учитывая его расположение внутри гена, связанного с болезнью, ALMS1-IT1 сам является кандидатом в гены, влияющие на развитие или проявление синдрома Альстрёма. Изменения в его экспрессии или структуре потенциально могут модулировать заболевание. Итог ENSG00000280197 (ALMS1-IT1) — это длинная некодирующая РНК, расположенная внутри гена ALMS1. Он является функциональным элементом генома и, вероятно, играет роль в регуляции экспрессии гена ALMS1, мутации в котором вызывают синдром Альстрёма. В отличие от многих плохо изученных генов с идентификаторами типа "ENSG000002...", у этого гена есть установленное название и он является предметом научных исследований.
3. Список животных для исследования
1) Accipiter nisus (ястреб-перепелятник)
2) Canis lupus familiaris (домашняя собака)
3) Equus caballus (домашняя лошадь)
4) Felis catus (домашняя кошка)
5) Macaca mulatta (макак-резус)
6) Mustela putorius (лесной хорёк)
7) Tursiops truncatus (афалина)
8) Varanus komodoensis (комодский варан)
9) Rhinopithecus roxellana (золотистая курносая обезьяна)
10) Sarcophilus harrisii (тасманийский дьявол)
4. Материалы и методы
1) Источники данных. Нуклеотидные последовательности генов ENSG00000288547 и ENSG00000280197 человека и их ортологи/паралоги были получены из базы данных Ensembl (Release 110) [5].
2) Поиск ортологичных последовательностей. Поиск ортологичных последовательностей проводили у 20 видов позвоночных, включая приматов (макака), плацентарных млекопитающих (собака, кот), а также рептилий (комодский варан) и т.д. Для поиска использовали алгоритм BLAST [6].
3) Филогенетический анализ. Множественные выравнивания нуклеотидных последовательностей выполнялись в Microsoft Powershell.
5. Результаты
1. Эволюционная консервативность гена ENSG00000280197.
В результате анализа было установлено,что ортологи гена ENSG00000280197 присутствуют у исследованных видов приматов (макака, золотистая курносая обезьяна). У более далеких видов, таких как другие плацентарные млекопитающие или рептилии, последовательности-ортологи идентифицировать не удалось, что может свидетельствовать о возникновении данного гена на ранних этапах эволюции приматов.
2. Быстрая эволюция и низкая консервативность гена ENSG00000288547.
Ген ENSG00000288547 продемонстрировал противоположную эволюционную картину. У изучаемых приматов гомологичные последовательности отсутствовали, либо имели крайне низкий процент сходства. Это позволяет предположить, что ген ENSG00000288547 является эволюционно молодым и, возможно, возник в линии гоминид. Высокая скорость его эволюции может быть следствием нейтральной эволюции нефункциональной последовательности либо адаптации к видоспецифичным функциям.
3. Ссылка на Гугл-диск с результатами: https://drive.google.com/drive/folders/1qzoJljWc-dGX6ZI9wBAqIEfKd5cDEWoy?usp=sharing
6. Выводы
Проведенное исследование позволило установить фундаментальные различия в эволюционных траекториях двух изученных генов днкРНК. Ген ENSG00000280197 является консервативным элементом в геноме приматов, находящимся под действием очищающего отбора, что делает его перспективным кандидатом для дальнейшего функционального изучения роли в развитии и функционировании нервной системы.
Напротив, ген ENSG00000288547 представляет собой быстро эволюционирующий, видоспецифичный генетический элемент, чья биологическая роль требует дальнейшего уточнения.
Полученные результаты подчеркивают важность эволюционного подхода для приоритизации генов-кандидатов среди тысяч малоизученных днкРНК.
7. Литература
1. Rinn J. L., Chang H. Y. Genome regulation by long noncoding RNAs // Annual Review of Biochemistry. – 2012. – Vol. 81. – P. 145–166.
2. Statello L., Guo C. J., Chen L. L., Huarte M. Gene regulation by long non-coding RNAs and its biological functions // Nature Reviews Molecular Cell Biology. – 2021. – Vol. 22(2). – P. 96–118.
3. Ponting C. P., Hardison R. C. What fraction of the human genome is functional? // Genome Research. – 2011. – Vol. 21(11). – P. 1769–1776.
4. Necsulea A., et al. The evolution of lncRNA repertoires and expression patterns in tetrapods // Nature. – 2014. – Vol. 505(7485). – P. 635–640.
5. Cunningham F., et al. Ensembl 2022 // Nucleic Acids Research. – 2022. – Vol. 50(D1). – P. D988–D995.
6. Altschul S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Research. – 1997. – Vol. 25(17). – P.
3389–3402.
7. Yang Z. PAML 4: phylogenetic analysis by maximum likelihood // Molecular Biology and Evolution. – 2007. – Vol. 24(8). – P. 1586–1591.
8. GTEx Consortium. The GTEx Consortium atlas of genetic regulatory effects across human tissues // Science. – 2020. – Vol. 369(6509). – P. 1318–1330.
9. Lorenz R., et al. ViennaRNA Package 2.0 // Algorithms for Molecular Biology. – 2011. – Vol. 6(1). – P. 26.
