
фото: https://www.pexels.com
В мире машинного обучения и искусственного интеллекта чистые данные — это все. Даже небольшое количество неправильно маркированных примеров, известных как шум меток, может подорвать производительность модели, особенно таких, как опорные векторные машины (SVM), которые полагаются на несколько ключевых точек данных для принятия решений.
SVM — это широко используемый тип алгоритма машинного обучения, применяемый во всем: от распознавания изображений и речи до медицинской диагностики и классификации текста. Эти модели работают, находя границу, которая наилучшим образом разделяет различные категории данных. Они полагаются на небольшое, но важное подмножество обучающих данных, известных как опорные векторы, для определения этой границы. Если эти несколько примеров неправильно маркированы, полученные границы решений могут быть некорректными, что приведет к плохой производительности на реальных данных.
Теперь группа исследователей из Центра подключенной автономии и искусственного интеллекта (CA-AI) в Колледже инженерии и компьютерных наук Флоридского Атлантического университета и их коллеги разработали инновационный метод автоматического обнаружения и удаления ошибочных меток до того, как модель будет обучена, что делает ИИ умнее, быстрее и надежнее.
Прежде чем ИИ даже начнет обучение, исследователи очищают данные с помощью математической техники, которая ищет странные или необычные примеры, не совсем подходящие в данном случае. Эти «выбросы» удаляются или помечаются, гарантируя, что ИИ получит высококачественную информацию с самого начала. Статья опубликована в IEEE Transactions on Neural Networks and Learning Systems.
«SVM являются одними из самых мощных и широко используемых классификаторов в машинном обучении, их применение варьируется от обнаружения рака до фильтрации спама, — сказал Димитрис Падос, доктор философии, профессор инженерии и компьютерных наук имени Шмидта на кафедре электротехники и компьютерных наук FAU, директор CA-AI и научный сотрудник Института датчиков FAU (I-SENSE). — Что делает их особенно эффективными — но также и уникально уязвимыми — так это то, что они полагаются всего на небольшое количество ключевых точек данных, называемых опорными векторами, чтобы провести границу между различными классами. Если хотя бы одна из этих точек неправильно помечена — например, если злокачественная опухоль неправильно помечена как доброкачественная — это может исказить все понимание проблемы моделью. Последствия этого могут быть серьезными, будь то пропущенный диагноз рака или система безопасности, которая не может обозначить угрозу. Наша работа заключается в защите моделей — любой модели машинного обучения и ИИ, включая SVM — от этих скрытых опасностей путем выявления и удаления этих неправильно помеченных случаев до того, как они смогут нанести вред».
Метод, основанный на данных, который «очищает» набор обучающих данных, использует математический подход, называемый анализом главных компонент L1-нормы. В отличие от обычных методов, которые часто требуют ручной настройки параметров или предположений о типе присутствующего шума, этот метод выявляет и удаляет подозрительные точки данных в каждом классе исключительно на основе того, насколько хорошо они соответствуют остальной части группы.
«Точки данных, которые, по-видимому, значительно отклоняются от остальных — часто из-за ошибок в метках — помечаются и удаляются, — сказал Падос. — В отличие от многих существующих методов, этот процесс не требует ручной настройки или вмешательства пользователя и может быть применен к любой модели ИИ, что делает его масштабируемым и практичным».
Процесс надежный, эффективный и полностью бесконтактный — даже справляется с печально известной сложной задачей выбора ранга (который определяет, сколько измерений сохранять во время анализа) без ввода данных пользователем.
Исследователи тщательно протестировали свой метод на реальных и синтетических наборах данных с различными уровнями загрязнения метками. По всем направлениям он показал последовательные и заметные улучшения в точности классификации, продемонстрировав свой потенциал в качестве стандартного этапа предварительной обработки при разработке высокопроизводительных систем машинного обучения.
«Что делает наш подход особенно привлекательным, так это его гибкость, — сказал Падос. — Его можно использовать в качестве этапа предварительной обработки plug-and-play для любой системы ИИ, независимо от задачи или набора данных. И это не просто теория — обширное тестирование как на зашумленных, так и на чистых наборах данных, включая такие известные бенчмарки, как набор данных Wisconsin Breast Cancer, показало последовательное улучшение точности классификации. Даже в случаях, когда исходные данные обучения казались безупречными, наш новый метод все равно повышал производительность, предполагая, что тонкий, скрытый шум меток может быть более распространенным, чем считалось ранее».
Заглядывая вперед, исследование открывает двери для еще более широких приложений. Команда заинтересована в изучении того, как эта математическая структура может быть расширена для решения более глубоких проблем в науке о данных, таких как снижение смещения данных и повышение полноты наборов данных.
Источник: http://techxplore.com/news/2025-06-method-ai-smarter-bad.html
Комментарии
Чтобы оставить комментарий зарегистрируйтесь или войдите
Авторизация через