В Национальном исследовательском университете информационных технологий, механики и оптики (Университете ИТМО) в Санкт-Петербурге разработали универсальную библиотеку моделей искусственного интеллекта, которая позволяет автоматически обрабатывать изображения с плотно сгруппированными объектами — такими, как горные породы, пузырьки, гранулы и кристаллы. Инструмент способен за час размечать до 600 изображений и может быть адаптирован для самых разных промышленных задач — от добычи цветных металлов до контроля качества в пищевом производстве, передает inbusiness.kz со ссылкой на пресс-службу Университета ИТМО.
Решение разработали студенты лаборатории компьютерных технологий. Оно уже заинтересовало представителей горнодобывающей, нефтеперерабатывающей и аграрной отраслей.
Как отмечают разработчики проекта, ранее автоматическая разметка изображений, на которых объекты расположены вплотную и перекрывают друг друга, была практически невозможна. Алгоритмы не различали границы между камнями и пузырями, из-за чего приходилось выполнять трудоемкую ручную разметку.
"Сейчас в России разрабатывают решения на основе машинного обучения и ИИ для горнодобывающей промышленности, но эти модели доступны только конкретным компаниям и особо не афишируются. Уникальность нашего подхода в том, что мы делаем открытые для всех универсальные решения. Также мы не только автоматизировали разметку камней и пузырьков, но и разработали генеративную модель, которая создает разметку для подобных объектов. Инженеру по машинному обучению нужно потратить немного времени на адаптацию алгоритма к данным, но такой подход все равно будет быстрее разметки вручную", — рассказала руководитель проекта, аспирант факультета информационных технологий и программирования ИТМО Мария Румянцева.
В основу библиотеки легли три ключевых алгоритма:
Segment Anything Model (SAM) — выделяет нужную область на изображении прямоугольной рамкой;
YOLOv8s — распознает и сегментирует крупные объекты;
алгоритм водораздела — обрабатывает малые элементы.
Такой многоуровневый подход позволяет проводить точный и комплексный анализ изображений даже с большим количеством перекрывающихся объектов.
"Наше решение сегментирует большее количество объектов на изображении, чем классическая сегментация водоразделом — показатель полноты (object recall) нашего решения равен 0.85 против 0.52. Также библиотека превосходит существующий метод в метрике схожести оптических потоков (0.27 против 0.23), но уступает ему в метрике временной согласованности масок сегментации (0.30 против 0.41). Эти параметры показывают, насколько стабильно и логично работает модель сегментации. Нашими моделями объекты размечаются достаточно быстро — приблизительно 600 изображений размером 512x512 пикселей за час. Скорость работы не зависит от количества объектов на изображении, но размечать камни тяжелее, так как они могут перекрывать друг друга и иметь разную форму в отличие от постоянно круглых пузырей", — поделился студент четвертого курса факультета систем управления и робототехники ИТМО Егор Прокопов.
Инструмент уже применен в ряде промышленных кейсов. Например, с его помощью создан ИИ-сервис, который анализирует поризацию гипсокартона с точностью до 99%.
Новая система особенно востребована в горно-обогатительном производстве, где важна точная оценка параметров руды. Камни, попадающие в дробилки, должны быть строго определенного размера: слишком крупные — могут повредить оборудование, а слишком мелкие — пройдут сквозь механизм, не принеся пользы. Аналогично и в процессе флотации, где необходимо контролировать поведение пузырьков: их размер, форму и цветность.
Обычно для оценки таких параметров используют просеивание, лазерное 3D-сканирование, химический анализ растворов или рентгенорадиометрические методы. Но все они требуют времени и ресурсов. Использование компьютерного зрения и ИИ позволяет значительно ускорить процесс.
Для переноса технологии на новые задачи ученые подготовили специальный метод генерации датасетов. Он включает пары изображений и масок, где маска отображает контуры объекта. Генерация происходит в несколько этапов:
- Сначала маски создаются по текстовым запросам в генеративной модели Stable Diffusion Turbo.
- Затем с помощью IP Adapter обучается нейросеть, запоминающая реальные образы объектов — пузырей и камней.
- На финальном этапе формируется полноценный набор пар "изображение — маска", пригодный для обучения сегментационных моделей.
"На итоговом наборе пар "изображение — маска" инженер по машинному обучению может обучить свою модель сегментации для анализа камней и пузырьков. Наши тесты показали, что в сравнении с экспертной разметкой модели, обученные на разметке генерации, показатель полноты (object recall) равен 0.99. Это значит, что модель находит все камни, отмеченные экспертом", — пояснила студентка четвертого курса факультета систем управления и робототехники ИТМО Дарья Усачева.
Разработка доступна в открытом доступе и уже вызывает интерес у представителей различных отраслей. Команда планирует продолжить работу над проектом. В планах:
- улучшение генерации масок для пузырей;
- обучение моделей на видеоданных;
- добавление системы аналитики, которая будет автоматически определять размер, форму, количество и цветность объектов;
- представление результатов на научных конференциях;
- расширение сотрудничества с промышленными партнерами.
Разработка ИТМО — это шаг к созданию доступных и универсальных ИИ-решений для задач промышленной автоматизации, контроля качества и анализа материалов.
Читайте по теме:
Казахстанский ученый изобрел прибор для эталонов влаги