Машинное обучение и ИИ в биологии и медицине

Обучение.. машин?

Машинное обучение (machine learning, ML) — это совокупность методов искусственного интеллекта, с помощью которых можно создавать самообучающиеся компьютерные системы (в частности, нейросети). Для таких систем разработчики не прописывают конкретные алгоритмы решения задач, а предоставляют подготовленные данные и описывают критерии успешного решения, по которым учатся нейросети.

В традиционном программировании для решения некой задачи разработчику необходимо определить алгоритм и «объяснить» его компьютеру с помощью кода на языке программирования. У специалистов по машинному обучению другой подход: они пытаются научить машину «думать», подобно человеку, и самой находить решения.

ML применяется для создания беспилотных автомобилей и рекомендательных систем, в генерации изображений по текстовому описанию, распознавании речи и других областях науки. Вы наверняка слышали о ChatGPT, Grok или YandexGPT — всё это результат машинного обучения.

Важно не путать термины «машинное обучение» и «искусственный интеллект». Искусственный интеллект — это более общий термин. Можно сказать, что это способность компьютера обучаться, принимать решения и выполнять действия, свойственные человеческому интеллекту. Машинное обучение — это направление искусственного интеллекта, реализующее его с помощью алгоритмов.

Машинное обучение — это область ИИ, где модели обучаются на данных для предсказаний или принятия решений без явного программирования правил. В 2026 году ML эволюционировало до мультимодальных систем (текст + изображение + видео), как Grok 4.1 или Llama 3.1, способных решать задачи от генерации кода до анализа белковых структур.

Ключевой принцип: эмпирическая оптимизация. Модель минимизирует ошибку на train-датасете, стремясь к обобщению на новых данных. Без данных (big data) и compute (GPU/TPU) МО невозможно — это топливо эры ИИ.

Машинное обучение активно развивается в XXI веке, но первые шаги к нему сделали еще в середине прошлого столетия.

В 1950 году Алан Тьюринг предложил тест для оценки интеллекта компьютера: если человек в переписке не может отличить машину от другого человека, значит, компьютер мыслит.

В 1958 году ученый Фрэнк Розенблатт создал «Марк-1» — первый компьютер, работавший на основе искусственной нейросети. Устройство могло распознавать образы и даже пыталось предсказывать погоду. Коллеги подвергли технологию суровой критике: развитие нейросетей надолго затормозилось.

Термин «машинное обучение» ввел Артур Самуэль из IBM в 1959 году. Он разработал программу для игры в шашки, которой не требовался партнер: она могла играть сама с собой и учиться на своем опыте. Это был первый случай, когда компьютер показал поведение, на которое его не программировали специально.

В конце 80-х годов аспиранты университета Карнеги — Меллона спроектировали машину для игры в шахматы ChipTest. Она стала прототипом суперкомпьютера Deep Blue, который в 1996 году впервые обыграл чемпиона мира по шахматам. До этого алгоритмы уступали человеку — они хорошо просчитывали ходы, но не обладали интуицией. Deep Blue, благодаря мощности и более сложным алгоритмам, смог проанализировать огромное количество вариантов и одержать победу.

После этого история машинного обучения пошла по нарастающей. В 2011 году Google основал подразделение Google Brain для исследований в области ИИ. Через три года собственные платформы машинного обучения появились у Amazon и Microsoft. Тогда же была разработана система DeepFace, научившаяся распознавать лица на фотографиях с точностью 97%.

В 2020 году алгоритм AlphaFold от DeepMind решил одну из сложнейших биохимических задач — смоделировал процесс сворачивания белка. Над этой проблемой ученые бились больше 50 лет, и ее решение открыло новые возможности для лечения болезни Паркинсона, Альцгеймера и других заболеваний.

Глобальная задача машинного обучения — создать искусственный интеллект, который по своим аналитическим способностям будет равен или даже превосходить человеческий. Это очень сложная задача, которую тем не менее наука вполне может решить в ближайшие 5–10 лет.ИИ, который способен соперничать с человеком и решать задачи разного типа, называют сильным, или общим (artificial general intelligence).

Что касается более узких задач машинного обучения, то их можно разделить на четыре группы: классификация, регрессия, кластеризация и уменьшение размерности. Разберём каждую из них.

Классификация

Используется для решения тех задач, где на основании признаков объектов требуется распределить их по заданным категориям. Например, на производстве могут отделять детали с браком от хороших с помощью компьютерного зрения.

Пример 2026: Классификация мутаций белков (патогенная/благополучная) с ESM-2 embeddings, accuracy 95%+.

Регрессия

Регрессия в теории вероятностей и математической статистике — это зависимость среднего значения какой-либо величины от некоторой другой величины или от нескольких величин. Компьютеры могут анализировать огромные массивы данных и делать предсказания на их основе. Например, можно загрузить в компьютер данные о движении курса акций за последние 10 лет и попросить предсказать их цену в текущем году.

Кластеризация

Кластеризация — это распределение объектов по категориям, когда неизвестно, сколько категорий получится в итоге. Распределение происходит по заданному критерию. Например, компания может использовать кластеризацию для определения типов клиентов по паттернам их покупок и делать на основании этого персонализированные предложения товаров.

Уменьшение размерности

Уменьшение размерности помогает сократить количество признаков в данных без потери информации. Это упрощает их обработку и ускоряет алгоритмы машинного обучения, так как количество данных, с которыми им предстоит работать, уменьшается.

При распознавании изображений снижение размерности позволяет не анализировать каждый пиксель, а использовать только важные признаки. Например, чтобы распознать зебру среди животных, главное — научиться видеть белые и чёрные полосы.

Чтобы обучить искусственный интеллект, можно использовать разные методы. Они отличаются друг от друга степенью вовлечённости человека в процесс.

Обучение с учителем (supervised learning)

Компьютер может учиться под присмотром учителя, то есть дата-сайентиста или аналитика данных, который предоставляет ему размеченные данные.

Специалист показывает программе разные примеры и объясняет: вот кот, а вот собака. После обучения предлагает ей по тому же принципу проанализировать незнакомые данные. Если модель ошибается, то учитель исправляет её. Так программа учится, пока не достигнет нужной точности ответов.

Этот тип обучения подходит для решения задач классификации и регрессии. Примеры алгоритмов: наивный Байес, метод опорных векторов, дерево решений, k-ближайшие соседи, логистическая регрессия и линейная и полиномиальная регрессия.

Используется для фильтрации спама, компьютерного зрения, поиска и классификации документов.

Обучение без учителя (unsupervised learning)

Здесь программа не получает от специалиста никаких подсказок. Есть большой массив данных, и модели машинного обучения нужно самой найти закономерности.

Часто обучение без учителя используется для глубокого анализа больших данных, когда информации так много, что классифицировать всё вручную для обучения алгоритмов невозможно. Также этот тип обучения применяется в тех случаях, когда дата-сайентист не знает, что он может найти, но предполагает, что какие-то паттерны в данных присутствуют.

С помощью обучения без учителя тренируют алгоритмы по кластеризации данных и выявлению аномалий. Примеры алгоритмов: метод k-средних, DBSCAN, сингулярное разложение (SVD), анализ главных компонент (PCA) и латентное размещение Дирихле (LDA).

Метод используется для сегментации данных, обнаружения аномалий, составления рекомендаций, управления рисками и обнаружения фейковых изображений.

Обучение с частичным участием учителя (semi-supervised learning)

Как понятно из названия, этот метод обучения что-то среднее между полностью самостоятельным обучением и обучением с учителем. Например, специалист может разметить только небольшую часть данных, чтобы повысить точность предсказаний модели на старте её обучения.

Такой способ используется в тех сферах, где требуется работать с большим количеством однотипных по форме, но разнообразных по содержанию данных. Например, при распознавании изображений и речи.

Дополнение: FixMatch, MixMatch — SOTA в 2026 для low-label regimes в protein classification.

Обучение с подкреплением (reinforcement learning)

Некоторым навыкам можно обучиться только на практике: ходить, танцевать, плавать или водить машину. Людям не нужен постоянный контроль, чтобы эффективно учиться. Получая в ответ на свои действия положительные либо отрицательные сигналы, мы учимся очень эффективно.

Компьютер тоже способен учиться в динамичной среде: игровом или реальном мире. Например, с помощью обучения с подкреплением обучают беспилотные автомобили. Описать абсолютно все ситуации на дороге в виде правил нереально. Нельзя предсказать, в какой момент на дорогу выбежит ребёнок или как ориентироваться на дороге в густом тумане. Поэтому беспилотные автомобили учатся водить при помощи симуляции реальной среды.

Примеры алгоритмов: Q-обучение, генетический алгоритм, SARSA, DQN и DDPG. Используется для обучения беспилотных автомобилей и роботов.

Дополнение: PPO, SAC в robotics; RLHF для alignment LLM (как в Grok).

Глубинное обучение (deep learning)

Глубинное обучение — это класс алгоритмов машинного обучения, созданный по аналогии со структурой человеческого мозга. Они работают благодаря многослойным нейронным сетям.

Для того чтобы обучить машину, нужны три компонента:

Наборы данных, или датасеты

ML-системы обучаются на специальных коллекциях образцов, называемых наборами данных, или датасетами. Они могут включать числа, изображения, тексты или любые другие типы данных в зависимости от задачи. Хороший датасет — это один из факторов успешного обучения модели, поэтому его сбору и предварительной подготовке уделяется много времени.

Функции

Функции показывают машине, на что следует обратить внимание. Допустим, вы хотите спрогнозировать цену квартиры. Можно попытаться предсказать стоимость с помощью линейной регрессии и, например, оценить, сколько может стоить это место исходя из площади. Но гораздо проще найти корреляцию между ценой и районом, где расположено здание. Поэтому важно подбирать правильные функции, учитывающие наиболее подходящие параметры.

Алгоритмы

В математическом смысле алгоритм — это совокупность функций. Он берёт данные на входе и выдаёт результат на выходе. Одну и ту же задачу можно решить, используя разные алгоритмы.

В зависимости от их выбора точность или скорость получения результатов может быть разной. Иногда для достижения большей производительности нужно комбинировать разные алгоритмы. Такие конструкции называются ансамблями (ensemble learning).

Если качество набора данных было высоким, целевые параметры выбраны правильно и использованы подходящие алгоритмы, то машинное обучение может справляться со специализированными задачами даже лучше, чем люди. Например, такие модели используются в диагностике опухолей и они дают на 20% больше верных диагностических ответов в сравнении с врачами-людьми.

Наивный Байес

Байесовские алгоритмы — это семейство вероятностных классификаторов, основанных на применении теоремы Байеса. С её помощью можно предсказать, как возникновение одного события влияет на вероятность другого события.

Наивный классификатор Байеса был одним из первых алгоритмов, использованных для машинного обучения. Например, алгоритм использовали для фильтрации спама до 2010 года. Механизм фильтрации с применением классификатора Байеса очень простой — инженеры посчитали, какие слова чаще всего встречаются в подобных письмах: «срочно», «скидка», «бесплатно» и другие. А потом научили алгоритм автоматически сортировать письма, где такие слова встречаются часто, в отдельную папку.

Но потом изобрели байесовское отравление. Спамеры научились прятать свои сообщения в большом количестве безобидного текста, например отрывков литературных произведений. Это помогало им обмануть фильтр. Поэтому появились другие способы фильтрации писем, более точные, например с помощью нейронных сетей.

Деревья решений

Дерево решений — это алгоритм машинного обучения, который используют для классификации, регрессии и выявления аномалий. Деревья решений часто применяют для анализа больших данных. Предсказания модели довольно точные и их легко визуализировать.

Чтобы дать предсказание, алгоритм полагается на систему правил «Если… то…». У правил есть иерархия.

Алгоритм сам генерирует правила в процессе обучения. Правила — это обобщения множества отдельных наблюдений, описывающих предметную область. Дерево решений анализирует выборку входящих данных, а затем группирует их, чтобы объекты одного класса оказались вместе.

Например, в метеорологии они могут использоваться для прогнозирования погоды на основе данных о температуре, давлении и влажности воздуха.

Линейная регрессия

Линейная регрессия — это базовый алгоритм предсказания непрерывных значений, который строит прямую или гиперплоскость, максимально приближенную к точкам данных. С её помощью можно предсказать числовой результат — например, цену квартиры по её площади и количеству комнат.

Линейная регрессия была одним из первых алгоритмов машинного обучения благодаря своей математической простоте и точному аналитическому решению. Например, её использовали для прогнозирования цен на недвижимость: риелторы собирали данные о продаже сотен квартир (площадь → цена), а потом модель находила оптимальную линию Y = wX + b, где w — наклон (цена за м²), b — базовая стоимость. Механизм очень простой — метод наименьших квадратов минимизировал ∑(реальная_цена - предсказанная)² для всех объектов.

Но потом столкнулись с ограничениями линейной модели. Она плохо работала с нелинейными зависимостями (например, цена росла экспоненциально с расстоянием до метро), выбросами (элитная квартира искажала линию) и большим количеством признаков (multicollinearity). Поэтому появились более мощные методы — полиномиальная регрессия, деревья решений, градиентный бустинг и нейросети, которые лучше ловят сложные паттерны в данных.

Логистическая регрессия

Логистическая регрессия — это вероятностный классификатор для задач "да/нет", который преобразует линейную комбинацию признаков через сигмоидную функцию в вероятность от 0 до 1. С её помощью можно предсказать вероятность события — например, вернёт ли клиент кредит.

Логистическая регрессия стала одним из базовых алгоритмов машинного обучения благодаря простоте и интерпретируемости. Например, её использовали для кредитного скоринга в банках: система анализировала возраст, доход и кредитную историю, а потом предсказывала P(вернёт) = 0.87 → одобрить. Механизм очень простой — модель училась на исторических данных, находя оптимальные веса для каждого признака.

Но у логистической регрессии есть ограничения. Она предполагает линейную зависимость между признаками и исходом, поэтому плохо работает с нелинейными паттернами, сложными взаимодействиями или большим количеством признаков. Поэтому для современных задач её часто заменяют градиентным бустингом или нейросетями.

k-ближайших соседей

Метод k-ближайших соседей (kNN) — это непараметрический алгоритм, который классифицирует объекты по принципу "похожие объекты похожи". С его помощью можно автоматически находить группы похожих объектов без явного обучения модели.

Метод kNN был одним из первых интуитивно понятных алгоритмов машинного обучения. Например, его использовали для рекомендаций в интернет-магазинах: система находила 5 пользователей с похожими покупками и предлагала те же товары. Механизм очень простой — для нового объекта вычисляли евклидово расстояние до всех старых, брали k ближайших и голосовали большинством.

Но потом столкнулись с проблемой масштаба. На больших данных (миллионы объектов) kNN стал слишком медленным — приходилось вычислять расстояния до всех точек. Спамеры и атакующие могли специально добавлять "шумовые" объекты, сбивающие поиск ближайших соседей. Поэтому появились ускоренные версии (KD-деревья, HNSW) и более эффективные алгоритмы вроде случайного леса или нейросетевых embeddings.

SVM (машина опорных векторов)

Машины опорных векторов применяют для задач регрессии и классификации.

Цель SVM — построить в N-мерном пространстве гиперплоскость, которая однозначно разделяет данные на классы. N соответствует количеству признаков, а гиперплоскость — это прямая, которая разделяет объекты на эти классы. Расстояние от неё до каждого класса должно быть максимальным, так как от этого зависит точность.

SVM один из самых универсальных алгоритмов. Он используется и для распознавания лиц, и для извлечения содержания текстов при их анализе.

Нейронные сети

Нейронная сеть — это математическая модель, которая состоит из нейронов — узлов, объединённых в слои. Между собой слои связаны синапсами. Всё вместе, хоть и очень упрощённо, напоминает устройство нашего мозга.

Когда данные подаются на вход модели, они проходят через множество слоёв нейросети и переживают трансформацию. Например, нерелевантные данные могут быть отсортированы, а более важные переданы на следующие слои. У каждого нейрона есть вес, который автоматически меняется в процессе обучения сети. Чем больше вес, тем сильнее связь между нейронами.

Нейросети сегодня превосходят большинство других моделей, независимо от задачи. А потому используются во многих областях и сферах деятельности человека.

Где применяют машинное обучение

В области биотехнологий машинное обучение очень широко применяют в биоинформатике, инфохимии, биомедицине. С его помощью анализируют медицинские, генетические, экологические, биологические и другие данные, позволяя:

находить виновников болезни
подбирать лекарства
изучать влияние деятельности человека на природу
изучать сложные биологические и химические взаимодействия
извлекать полезныю информацию и больших массивов чисел и др.

Python (синтаксис, OOP, библиотеки NumPy, Pandas, Matplotlib)
Анализ данных - распределения, корреляция, гипотезы. Научится работать с данными: загрузка, очистка, визуализация, feature engineering.
Линейные модели и KNN - линейная/логистическая регрессия, k-NN, k-means. Проекты: классификация Iris, предсказание цен Boston Housing.
Ансамбли - Random Forest, SVM, Gradient Boosting (XGBoost). Нейросети: MLP, простые CNN в Keras/TensorFlow/PyTorch. Метрики: accuracy, precision/recall, F1, ROC-AUC; техники: кросс-валидация, hyperparameter tuning (GridSearch). Борьба с overfitting: dropout, L1/L2. Проекты: MNIST (99% точность), Titanic на Kaggle.
Проектирование и обучение нейросетей
Проектирование GUI
Дашборды - веб-интерфейсы для ML-моделей от простых дашбордов до полноценных сервисов с API, сделав проекты доступными онлайн и др