7–11 Oct 2024
Asia/Novosibirsk timezone

Семантический поиск и ранжирование геологических публикаций для научных исследований

Speaker

Михаил Иванович Патук (ГГМ РАН)

Description

Научные исследования в геологии требуют выполнения определённого набора типовых задач, которые являются важной частью процесса исследования, но при этом достаточно рутинны и однообразны. Современные технологии искусственного интеллекта позволяют облегчить рутинную работу не только в обработке, но и создании новых данных на основе входной информации.
Поиск информации является важной составной частью любого научного исследования. Основными методами до настоящего времени остаются тематический поиск по рубрикаторам и поиск по ключевым словам. Данные методы являются дискретными по своей сути и зависят от качества предварительной обработки документов, при помещении их в системы хранения.
Авторы в своей работе предлагают воспользоваться относительно новым подходом с использованием одного из методов искусственного интеллекта - семантического поиска. Данный метод основан на применении больших языковых моделей и сильно зависит от качества их предварительного обучения. Нами было проведено до обучение нескольких языковых моделей на собранном дата-сете, который содержал наименования и абстракты статей, посвященным описаниям месторождений твердых полезных ископаемых. Проведен сравнительный анализ полученных результатов. Показаны преимущества семантического поиска по сравнению с традиционными методами. Производен тестовый поиск и ранжирование публикаций на основе семантической близости с представленным фрагментом текста. Выполнен анализ зависимости качества поиска в зависимости от параметров используемой языковой модели и величины обучающего набора данных. Создан web-сервис поиска информации в архиве публикаций ГГМ РАН https://repository.geologyscience.ru .
Данный подход может быть применен в научных геологических исследованиях при сравнении месторождений и их классификации на основе семантической близости их описаний в публикациях.

Работа выполняется в рамках Гос. темы «Цифровая платформа интеграции и анализа геологических и музейных данных», тема № 1021061009468-8-1.5.1.

Секция конференции Методы искусственного интеллекта и машинного обучения

Primary authors

Presentation materials

There are no materials yet.