7–11 Oct 2024
Asia/Novosibirsk timezone

Исследование эффективности методов анализа данных для решения задачи слабо-контролируемого многоэкземплярного обучения (приглашенный доклад)

Speakers

Владимир Борисович Бериков (Институт математики им. С.Л. Соболева СО РАН) Ольга Андреевна Кутненко (ИМ СО РАН)

Description

В работе рассматривается один из вариантов задачи классификации данных в постановке слабо-контролируемого обучения (weakly-supervised learning) [1], называемой обучением на множествах примеров (multi-instance learning), групповым (многоэкземплярным) обучением или обучением на мультимножествах. В данной задаче метки определены для множеств объектов, называемых пакетами (bags). Каждый объект из пакета имеет свое признаковое описание. Пакет отмечен как положительный, если в нем содержится хотя бы один положительный объект, иначе пакет помечается как отрицательный. Требуется предсказать наличие или отсутствие положительных объектов для новых пакетов, представленных как набор объектов. В докладе приведены результаты решения задачи идентификации белков методами анализа данных [2]. Также приводится сравнение с результатами решения данной задачи рядом известных методов [3].
Работа выполнена в рамках государственного задания ИМ СО РАН (проект № FWNF–2022–0015).

Список литературы

  1. Zhou Z.-H. A brief introduction to weakly supervised learning. National Science Review. 2018; 5(1):44–53.
  2. Загоруйко Н.Г. Прикладные методы анализа данных и знаний. Новосибирск: Издательство Института математики СО РАН; 1999: 270.
  3. Wang C., Scott S., Zhang J., Tao Q., Fomenko D.E., Gladyshev V.N. A Study in Modeling Low-Conservation Protein Superfamilies. 2004. CSE Technical reports. 42.
Секция конференции Методы искусственного интеллекта и машинного обучения

Primary authors

Владимир Борисович Бериков (Институт математики им. С.Л. Соболева СО РАН) Ольга Андреевна Кутненко (ИМ СО РАН)

Presentation materials

There are no materials yet.