Автор: Беляева Олеся Ивановна

1. Введение

Геномы эукариот характеризуются повсеместной транскрипцией, в результате которого транскрибируется большое число некодирующих РНК (нкРНК). Среди них особый интерес представляют длинные некодирующие РНК (днкРНК) — транскрипты длиной более 200 нуклеотидов, не кодирующие белки. Несмотря на то, что функциональная роль большинства днкРНК остается нераскрытой, известно, что они играют ключевую роль в различных клеточных процессах, включая эпигенетическую регуляцию, контроль транскрипции, сплайсинг и клеточную дифференцировку [1, 2].

 

Одним из мощных подходов к пониманию функции генетических элементов является эволюционный анализ. Принцип эволюционной консервативности предполагает, что геномные последовательности, выполняющие важные функции, будут сохраняться в процессе естественного отбора [3]. Поэтому идентификация консервативных элементов среди днкРНК позволяет сузить круг кандидатов для последующих функциональных исследований. В то же время, наличие видоспецифичных или быстро эволюционирующих днкРНК может указывать на их роль в формировании уникальных признаков таксона [4].

 

В настоящее время каталоги генов, такие как Ensembl, содержат аннотации тысяч генов днкРНК, многие из которых, однако, остаются «генами-загадками» без какой-либо функциональной или эволюционной характеристики. К таким генам относятся ENSG00000288547 и ENSG00000280197. Предварительный биоинформатический анализ указывает, что оба гена транскрибируются в днкРНК, но их эволюционная история, степень консервативности и потенциальная биологическая роль совершенно не изучены.

 

Цель: выяснить у каких еще организмов присутствует выбранный ген

Актуальность: Выяснение хода эволюции генов поможет понять, как они изменились и как это повлияло на физиологические функции.


 

Задачи исследования:

1.     Изучить и сравнить источники и дополнительную литературу.

2.     Выбрать животных

3.     Скачать последовательности генов

4.     Скачать геномы животных

5.     Сгенерировать hmm базы

6.     Поставить выравнивание

7.     Сделать bad файлы с гомологичными генам последовательностям

8.     Проанализировать полученные результаты.

9.      Сформулировать выводы.


2. Обзор выбранных генов  

ENSG00000288547 

 Это очень плохо изученный ген, и информация о нем крайне ограничена. Почти все, что мы о нем знаем, получено из вычислительных предсказаний, а не экспериментальных данных.

Основная информация  

Идентификатор: ENSG00000288547  

Тип гена: Псевдоген (Pseudogene)  

Локализация (согласно Ensembl): Хромосома 1 (Chromosome 1)  

Источник: Этот идентификатор присвоен проектом ENSEMBL. В других базах данных (например, NCBI's RefSeq) у этого гена может не быть аналога или он может быть обозначен по-другому.   

Что такое псевдоген? Псевдогены — это "генетические реликты", которые похожи на нормальные рабочие гены, но потеряли способность производить функциональный белок. Они являются "молекулярными окаменелостями" и важны для изучения эволюции генома. Характеристики ENSG00000288547 согласно базе данных ENSEMBL: 

Тип псевдогена: Процессированный псевдоген (Processed pseudogene). Это означает, что он возник в результате "обратной транскрипции" — когда матричная РНК (мРНК) какого-то рабочего гена была обратно скопирована в ДНК и вставлена в случайное место генома. Такие псевдогены обычно не имеют интронов, не имеют промотора, часто неактивны. Родительский ген: Компьютерный анализ показывает, что этот псевдоген, вероятно, произошел от гена RPL7 (или очень на него похож). RPL7 кодирует рибосомальный белок, который является ключевым компонентом рибосомы — клеточной "фабрики" по производству белков.  

Функция: Как и большинство псевдогенов, ENSG00000288547, скорее всего, не кодирует функциональный белок. Его первоначальная функция была утеряна. Возможно (но не точно) некоторые из псевдогенов могут играть регуляторные роли. Итог ENSG00000288547 — это предсказанный процессированный псевдоген, вероятно, произошедший от гена рибосомального белка RPL7. На сегодняшний день он считается нефункциональным "остатком" гена, и его биологическая роль, если она есть, неизвестна. 


 

ENSG00000280197 

Этот ген является некодирующей РНК и имеет несколько важных особенностей. Основная информация 

Идентификатор: ENSG00000280197  

Название гена: ALMS1-IT1 (ALMS1 Intronic Transcript 1) 

Тип гена: Длинная некодирующая РНК (lncRNA)  

Локализация: Хромосома 2 (2p13.1)  

Источник: Идентификатор присвоен проектом ENSEMBL.  

В отличие от предыдущего гена, это не псевдоген, а функциональная некодирующая РНК. Ген ALMS1-IT1 расположен внутри интрона другого, гораздо более крупного и важного гена — ALMS1. Ген ALMS1 мутации в котором вызывают редкое наследственное заболевание — синдром Альстрёма. Он транскрибируется в молекулу РНК, которая не служит инструкцией для синтеза белка. Вместо этого сама РНК выполняет регуляторные функции. Хотя точный механизм действия изучается, гены типа "IT" (intronic transcript) часто участвуют в регуляции своего "родительского" гена. Существуют научные публикации, которые изучают ALMS1-IT1. Потенциальная функция: Предполагается, что эта lncRNA может участвовать в регуляции экспрессии гена ALMS1 на эпигенетическом уровне (например, влияя на упаковку ДНК) или на уровне транскрипции. Учитывая его расположение внутри гена, связанного с болезнью, ALMS1-IT1 сам является кандидатом в гены, влияющие на развитие или проявление синдрома Альстрёма. Изменения в его экспрессии или структуре потенциально могут модулировать заболевание. Итог ENSG00000280197 (ALMS1-IT1) — это длинная некодирующая РНК, расположенная внутри гена ALMS1. Он является функциональным элементом генома и, вероятно, играет роль в регуляции экспрессии гена ALMS1, мутации в котором вызывают синдром Альстрёма. В отличие от многих плохо изученных генов с идентификаторами типа "ENSG000002...", у этого гена есть установленное название и он является предметом научных исследований. 


3. Список животных для исследования

1) Accipiter nisus (ястреб-перепелятник)

2) Canis lupus familiaris (домашняя собака)

3) Equus caballus (домашняя лошадь)

4) Felis catus (домашняя кошка)

5) Macaca mulatta (макак-резус)

6) Mustela putorius (лесной хорёк)

7) Tursiops truncatus (афалина)

8) Varanus komodoensis (комодский варан)

9) Rhinopithecus roxellana (золотистая курносая обезьяна)

10) Sarcophilus harrisii (тасманийский дьявол)


4. Материалы и методы

1) Источники данных. Нуклеотидные последовательности генов ENSG00000288547 и ENSG00000280197 человека и их ортологи/паралоги были получены из базы данных Ensembl (Release 110) [5].

2) Поиск ортологичных последовательностей. Поиск ортологичных последовательностей проводили у 20 видов позвоночных, включая приматов (макака), плацентарных млекопитающих (собака, кот), а также рептилий (комодский варан) и т.д. Для поиска использовали алгоритм BLAST [6].

3) Филогенетический анализ. Множественные выравнивания нуклеотидных последовательностей выполнялись в Microsoft Powershell. 


5. Результаты

1.  Эволюционная консервативность гена ENSG00000280197.

В результате анализа было установлено,что ортологи гена ENSG00000280197 присутствуют у исследованных видов приматов (макака, золотистая курносая обезьяна). У более далеких видов, таких как другие плацентарные млекопитающие или рептилии, последовательности-ортологи идентифицировать не удалось, что может свидетельствовать о возникновении данного гена на ранних этапах эволюции приматов. 

2.  Быстрая эволюция и низкая консервативность гена ENSG00000288547.

Ген ENSG00000288547 продемонстрировал противоположную эволюционную картину. У изучаемых приматов гомологичные последовательности отсутствовали, либо имели крайне низкий процент сходства. Это позволяет предположить, что ген ENSG00000288547 является эволюционно молодым и, возможно, возник в линии гоминид. Высокая скорость его эволюции может быть следствием нейтральной эволюции нефункциональной последовательности либо адаптации к видоспецифичным функциям.

3. Ссылка на Гугл-диск с результатами: https://drive.google.com/drive/folders/1qzoJljWc-dGX6ZI9wBAqIEfKd5cDEWoy?usp=sharing


6. Выводы

Проведенное исследование позволило установить фундаментальные различия в эволюционных траекториях двух изученных генов днкРНК. Ген ENSG00000280197 является консервативным элементом в геноме приматов, находящимся под действием очищающего отбора, что делает его перспективным кандидатом для дальнейшего функционального изучения роли в развитии и функционировании нервной системы.

Напротив, ген ENSG00000288547 представляет собой быстро эволюционирующий, видоспецифичный генетический элемент, чья биологическая роль требует дальнейшего уточнения.

Полученные результаты подчеркивают важность эволюционного подхода для приоритизации генов-кандидатов среди тысяч малоизученных днкРНК.


7. Литература

1. Rinn J. L., Chang H. Y. Genome regulation by long noncoding RNAs // Annual Review of Biochemistry. – 2012. – Vol. 81. – P. 145–166.

2.  Statello L., Guo C. J., Chen L. L., Huarte M. Gene regulation by long non-coding RNAs and its biological functions // Nature Reviews Molecular Cell Biology. – 2021. – Vol. 22(2). – P. 96–118.

3. Ponting C. P., Hardison R. C. What fraction of the human genome is functional? // Genome Research. – 2011. – Vol. 21(11). – P. 1769–1776.

4. Necsulea A., et al. The evolution of lncRNA repertoires and expression patterns in tetrapods // Nature. – 2014. – Vol. 505(7485). – P. 635–640.

5. Cunningham F., et al. Ensembl 2022 // Nucleic Acids Research. – 2022. – Vol. 50(D1). – P. D988–D995.

6. Altschul S. F., et al. Gapped BLAST and PSI-BLAST: a new generation of protein database search programs // Nucleic Acids Research. – 1997. – Vol. 25(17). – P.

3389–3402.

7. Yang Z. PAML 4: phylogenetic analysis by maximum likelihood // Molecular Biology and Evolution. – 2007. – Vol. 24(8). – P. 1586–1591.

8. GTEx Consortium. The GTEx Consortium atlas of genetic regulatory effects across human tissues // Science. – 2020. – Vol. 369(6509). – P. 1318–1330.

9. Lorenz R., et al. ViennaRNA Package 2.0 // Algorithms for Molecular Biology. – 2011. – Vol. 6(1). – P. 26.