Новый инструмент объясняет, как искусственный интеллект «видит» изображения и почему он может принять астронавта за лопату

Почему системы искусственного интеллекта могут превосходить людей в некоторых визуальных задачах, таких как распознавание лиц, но допускают вопиющие ошибки в других — например, классифицируют изображение астронавта как лопату?

Подобно человеческому мозгу, системы искусственного интеллекта полагаются на стратегии обработки и классификации изображений. И, как и в случае с человеческим мозгом, мало что известно о точной природе этих процессов. Ученые из Института наук о мозге Карни при Университете Брауна добиваются успехов в понимании обеих систем, опубликовав недавнюю статью, которая помогает объяснить компьютерное зрение способом, который, по словам исследователей, является доступным и более полезным, чем предыдущие модели.

«И человеческий мозг, и глубокие нейронные сети, которые питают системы искусственного интеллекта, называются черными ящиками, потому что мы точно не знаем, что происходит внутри», — сказал Томас Серр, профессор когнитивных, лингвистических и психологических наук и информатики в Брауне. «Работа, которую мы проводим в Центре вычислительной науки о мозге Карни, заключается в попытке понять и охарактеризовать мозговые механизмы, связанные с обучением, зрением и всеми другими вещами, а также выявить сходства и различия с системами искусственного интеллекта».

По словам Серра, глубокие нейронные сети используют алгоритмы обучения для обработки изображений. Они обучаются на огромных наборах данных, таких как ImageNet, в котором содержится более миллиона изображений, отобранных из Интернета и организованных по тысячам категорий объектов. Он объяснил, что обучение в основном включает в себя передачу данных в систему искусственного интеллекта.

«Мы не указываем системам искусственного интеллекта, как обрабатывать изображения — например, какую информацию извлекать из изображений, чтобы иметь возможность их классифицировать», — сказал Серр. «Система искусственного интеллекта определяет свою собственную стратегию. Затем специалисты по информатике оценивают точность того, что они делают, после того как они прошли обучение — например, возможно, система достигает 90% точности при различении тысячи категорий изображений».

Серр сотрудничал с доктором философии Брауна Томасом Фелом и другими учеными-компьютерщиками в разработке инструмента, который позволяет пользователям приоткрывать крышку черного ящика глубоких нейронных сетей и освещать, какие типы стратегий используют системы искусственного интеллекта для обработки изображений. Проект под названием CRAFT — для концепции рекурсивной активации, факторизации для объяснимости — был совместным проектом с Тулузским институтом искусственного и естественного интеллекта, где в настоящее время базируется Fel. Он был представлен в этом месяце на конференции IEEE/CVF по компьютерному зрению и распознаванию образов в Ванкувере, Канада.

Серр поделился тем, как CRAFT раскрывает, как искусственный интеллект «видит» изображения, и объяснил исключительную важность понимания того, чем система компьютерного зрения отличается от человеческой.
Что CRAFT говорит о том, как искусственный интеллект обрабатывает изображения?

CRAFT обеспечивает интерпретацию сложных и многомерных визуальных представлений объектов, изучаемых нейронными сетями, используя современные инструменты машинного обучения, чтобы сделать их более понятными для людей. Это приводит к представлению ключевых визуальных концепций, используемых нейронными сетями для классификации объектов. В качестве примера давайте подумаем о разновидности пресноводной рыбы, называемой линь. Мы создали веб-сайт, который позволяет людям просматривать и визуализировать эти концепции. Используя веб-сайт, можно увидеть, что концепция линя, разработанная системой искусственного интеллекта, включает в себя наборы рыбьих плавников, голов, хвостов, глазных яблок и многое другое.

Эти концепции также показывают, что глубокие сети иногда улавливают искажения в наборах данных. Например, одним из понятий, связанных с линем, является лицо белого мужчины, потому что в Интернете есть много фотографий спортивных рыбаков, держащих рыбу, похожую на линя. (Тем не менее, система все еще может отличить человека от рыбы.) В другом примере преобладающей концепцией, связанной с футбольным мячом в нейронных сетях, является присутствие футболистов на поле. Вероятно, это связано с тем, что на большинстве интернет-изображений с футбольными мячами также изображены отдельные игроки, а не только сам мяч.

Чем метод CRAFT отличается от других способов понимания компьютерного зрения?

Один из способов объяснить видение ИИ — это так называемые методы атрибуции, которые используют тепловые карты для определения наиболее влиятельных областей изображения, влияющих на решения ИИ. Однако эти методы в основном фокусируются на наиболее заметных областях изображения — раскрывая, «куда» смотрит модель, но не в состоянии объяснить, «что» модель видит в этих областях.

Улучшение по сравнению с предыдущими методами, которые Томас Фел внедрил в CRAFT, заключается не только в определении того, какие концепции система использует для создания изображения или что модель видит в этих областях, но и в том, как система ранжирует эти концепции. В примере с линем туловище рыбы соответствует 60% от общего веса концепции линя. Таким образом, мы можем узнать, какой вес система искусственного интеллекта придает этим подсознательным представлениям. Другими словами, более вероятно классифицировать изображение с туловищем линя как рыбу, чем изображение с белым мужчиной как рыбу.
Как CRAFT может объяснить, почему системы искусственного интеллекта иногда допускают странные ошибки?

В нашей статье мы используем CRAFT, чтобы объяснить классическую ошибку искусственного интеллекта: как изображение астронавта было неправильно классифицировано как лопата системой искусственного интеллекта, обученной на ImageNet. Вот что произошло: тепловая карта, сгенерированная классическим методом атрибуции, показала, что система смотрит на середину изображения в форме лопаты. Подход CRAFT выделил две наиболее влиятельные концепции, которые повлияли на принятие решения, а также соответствующие им местоположения.

КРАФТ предположил, что нейронная сеть пришла к своему решению, потому что она идентифицировала понятие «грязь», обычно встречающееся у представителей класса изображений «лопата», и понятие «лыжные штаны», которые обычно носят люди, расчищающие лопатой снег со своей подъездной дорожки. Она должна была определить правильную концепцию штанов астронавта, но это изображение штанов, вероятно, никогда не было замечено во время тренировочного процесса, поэтому система не смогла установить эту связь.
Почему так важно понимать детали того, как компьютер воспринимает изображения?

Во-первых, это помогает повысить точность и производительность инструментов, основанных на зрении, таких как распознавание лиц. Это делает системы искусственного интеллекта более надежными, потому что мы можем понять визуальную стратегию, которую они используют. И это также помогает сделать их более защищенными от кибератак. Возьмем, к примеру, концепцию состязательных атак. Дело в том, что можно вносить крошечные изменения в изображения, например, изменяя интенсивность пикселей способами, едва заметными для человека, но достаточными для того, чтобы полностью обмануть систему искусственного интеллекта.

В одном чрезвычайно важном примере исследователи показали, что, просто добавив несколько наклеек с определенным рисунком к знаку остановки, они могут обмануть самоуправляемое транспортное средство, чтобы оно восприняло его как знак ограничения скорости, так что оно увеличит скорость, а не замедлится и остановится. Это создало бы полный хаос. Поэтому нам нужно уметь понимать, почему и как эти типы атак воздействуют на искусственный интеллект, чтобы иметь возможность защититься от них.
Чему системы искусственного интеллекта могут научить нас о системах человеческого зрения?

Мы узнали, что есть нечто принципиально отличное от того, как эти нейронные сети обрабатывают изображения по сравнению с человеческим мозгом — человеческий мозг не стал бы обрабатывать знак «стоп» с несколькими черными наклейками в качестве знака ограничения скорости. Тем не менее, это невероятно хорошо спроектированные системы, которые иногда даже превосходят людей, например, в задачах распознавания лиц. Большая часть работы, которую мы проводим в нашей лаборатории, заключается в сравнении того, что похоже и что отличается в этих системах.

Всякий раз, когда нам удается обнаружить ограничения систем искусственного интеллекта, мы обращаемся к нейробиологии и спрашиваем: «Какого мозгового механизма не хватает в системах искусственного интеллекта, который, как мы знаем, играет ключевую роль в способности людей надежно и эффективно решать эту задачу?» А затем мы создаем абстракции этого механизма для машинного обучения и внедряем их в систему искусственного интеллекта нейронной сети. Мы обнаруживаем, что как только мы наделяем системы искусственного интеллекта механизмами, вдохновленными человеческим мозгом, они работают намного лучше: они более надежны, более эффективны в обучении и более точны при меньшем количестве тренировок.

Что касается неврологии, то это исследование помогает нам лучше понять человеческий мозг и то, как эти различия между людьми и системами искусственного интеллекта помогают людям, а также мы можем проверять наши идеи легче и безопаснее, чем это было бы в человеческом мозге. Очень трудно понять, как мозг обрабатывает визуальную информацию. Были разработаны методы, позволяющие понять, как работают нейроны и что они делают, и с помощью систем искусственного интеллекта теперь мы можем проверить эти теории и посмотреть, правы ли мы.

Синергия идет в обоих направлениях: нейробиология дает нам хорошее вдохновение для совершенствования искусственного интеллекта. Но тот факт, что мы действительно улучшаем искусственный интеллект с помощью этих нейробиологических механизмов, также является способом подтвердить открытия, сделанные в нейробиологии, и определить ключевые механизмы общего интеллекта, визуального интеллекта и многого другого.

Мы много слышим о беспокойствах по поводу систем искусственного интеллекта, которые слишком похожи на человеческие. Но, похоже, когда дело доходит до зрения, это хорошо, не так ли?

Во многих случаях мы обнаружили очень значительные преимущества для людей при согласовании системы искусственного интеллекта и системы человеческого зрения: модели, которые созданы более похожими на человеческие, становятся более надежными, устойчивыми к атакам и с меньшей вероятностью будут делать то, чего вы от них не хотите.

Каковы следующие шаги в этом исследовании?

Интересно посмотреть, как системы искусственного интеллекта классифицируют природные объекты, но я думаю, что следующим шагом будет использование того, что мы узнали об ИИ и человеческом зрении, чтобы помочь системам искусственного интеллекта решать большие проблемы в науке, которые люди не в состоянии решить прямо сейчас — например, в диагностике рака или в изучении ископаемых признание или в освоении космоса. Это будет действительно захватывающе.