26.08.18

За что покупатели возненавидели новую систему распознавания лиц от Amazon


Amazon разработала новую мощную систему для распознавания лиц в режиме реального времени. Нейросетям «кормят» фото и видео, а они определяют, что (или кто) там показывается. Воспользоваться ей может любой пользователь AWS. В США с её помощью шерифы уже успешно ловят преступников, а телестанции находят знаменитостей в живых трансляциях.

Но у технологии нашлись и ярые оппоненты, которые призывают Amazon немедленно прекратить разработку системы, иначе последствия могут быть самыми непредсказуемыми.

Сервис Amazon Rekognition позволяет встраивать в приложения аналитику изображений и видео, созданную алгоритмами на базе глубокого обучения. Достаточно дать нейронным сетям ваш ролик или ряд картинок, а те поймут, что на них изображено. Система умеет распознавать лица людей, их действия, объекты, окружающую среду. Обнаруживать порнографию или сцену убийства.

Технология для фото была представлена в 2016 году, а для видео – в 2017-м. С тех пор, как это свойственно нейронным сетям, продукт неплохо возмужал, поумнел и научился новым трюкам. Например, на начальном этапе Rekognition не была способна определять контекст снимка – что сейчас делает человек, и что показывает выражение его лица (наслаждение, страх, злость?). Тогда эту технологию Amazon часто сравнивали с Microsoft Cognitive Services, и говорили, что у Microsoft получается лучше.

Но в итоге система от AWS стала намного известнее своего конкурента. Возможно, свою роль сыграло то, что на облачные сервисы Amazon приходится 33% рынка, а на Microsoft – только 13%.

Сама Amazon говорит, что её сервис мощнее потому, что она накопила больше данных, которые можно кормить нейронным сетям для их обучения. Как бы то ни было, Rekognition сейчас для публики и властей в США является лицом deep learning для распознавания фото и видео. И сейчас это приносит компании массу проблем.

Как это работает


Rekognition позволяет в режиме реального времени выполнять поиск лиц в коллекциях, хранящих несколько десятков миллионов лиц. Сначала необходимо создать такую коллекцию (или использовать вариант, предоставленный Amazon). Затем сервис проводит по ней быстрый поиск, чтобы найти лица, которые имеют визуальное сходство с лицами людей на фото или видео.

Эксперты Amazon в области компьютерного зрения разработали эту систему для ежедневного анализа миллиардов изображений и видео. По слухам (пока неподтвержденным), именно она используется в первых магазинах без касс Amazon Go. На видео она способна даже запоминать, куда пошел тот или иной человек, когда его лица не видно. Технологии обещают большое будущее – например, в поиске пропавших людей или в автоматическом определении подозреваемых в совершении преступлений.

Rekognition также можно использовать для фильтрации неподобающего контента. Сейчас для этого приходится использовать команду модераторов – или рассчитывать, что пользователи сами пометят фото/видео с насилием или сценами сексуального характера в приложениях и в соц. сетях. Amazon уже сейчас позволяет указать, какие вещи нужно автоматически удалять. И в выдаче они даже не появятся: система будет отфильтровывать уже на этапе загрузки.

Сервис постоянно обучается на новых данных, расширяя свои способности и точность распознавания. Причем за счет феноменальных мощностей AWS технология стабильна при любом количестве запросов. Её задержка останется неизменной даже при росте количества запросов до десятков миллионов.

Для частных лиц или компаний сервис сдается по цене 10 центов за минуту распознавания архивного или потокового видео (плюс бесплатный анализ 1000 минут видео в месяц в первый год использования). Но сама Amazon видит его в гос. структурах. По специальной программе полиция в США может получить Rekognition всего за $6 в месяц – для сканирования сотен тысяч лиц потенциальных преступников. Несколько первых шерифов такую технологию в своем департаменте уже установили.

Например, в июле прошлого года мужчина зашел в магазин в Орегоне. Взял корзину, набрал в неё самых дорогих товаров. И вышел, не заходя в кассу самообслуживания. У магазина была камера, которая сняла пару фотографий вора, но в обычной ситуации его, скорее всего, никогда бы не нашли – у полиции хватает других задач. К сожалению для преступника, офис шерифа, подвязанный к делу, недавно подключился к технологии Amazon. Лицо магазинного вора прогнали через базу данных с 300 000 фотографий преступников из их округа. Та выдала четырех людей с похожими лицами. Детектив прошерстил их по Facebook – и нашел того самого человека, с теми же чертами лица и в той же толстовке. Всё, дело закрыто.

Полиция говорит, что если однажды человек уже пошел на преступление – большой шанс, что он может сделать это снова. Тут-то их старая фотография и пригодится. У Орегона есть база данных с фотографиями всех пойманных преступников за последние 10 лет. Сейчас её используют в основном для поиска по именам, фамилиям и месту жительства. По лицам на глаз найти в ней кого-то почти нереально, особенно учитывая, что со временем люди выращивают бороды, делают новые прически и так далее. А вот нейросети с задачей справляются за несколько секунд. Полиция округа говорит, что возможности Rekognition сейчас используются ей по 20 раз в день.

Другой вариант того, как Rekognition может быть использована во благо, продемонстрировали в прошлую субботу. Миллионы людей были прикованы к телеэкранам, наблюдая за тем, как принц Гарри женится на американской актрисе Меган Маркл. Свадьба собрала в три раза больше зрителей, чем топовые эпизоды «Игры престолов». Для многих, по правде сказать, это было довольно скучное зрелище. Наблюдать за тем, как какие-то лорды, леди и британские знаменитости разных калибров по очереди собираются и заходят в собор. Толпа людей, из которых ты, дай бог, знаешь десяток. Брр.

Но британская телесеть Sky News нашла выход из этой ситуации. Зрителям её лайвстрима не нужно было гадать, кто это там идет в шапке. Все данные шли через облако AWS. И Rekognition в прямом эфире узнавала всех знаменитостей с видео, и под каждым выдавала подпись с его именем, фамилией и титулом. В окне рядом же можно было посмотреть, кем этот человек приходится Гарри и Меган, и узнать о нём дополнительную информацию. Как это работало в режиме реального времени, можно посмотреть тут. Также можно выбрать, какую знаменитость вы хотите увидеть, и вас переключат на тот момент, когда Rekognition засекла её прибытие. Круто.

Путь к авторитаризму


Далеко не все разделяют радужные чувства по поводу новой технологии. В этот вторник Американский союз гражданских свобод (ACLU) и 40 поддержавших его организаций выпустили заявление, рассказывая о том, какие скрытые опасности таит в себе использование Rekognition. Они также направили открытое письмо основателю сервиса Джеффу Безосу, призывая его прекратить давать технологию в руки третьих лиц, и остановить разработку новых «систем надзора, которые вредят гражданскому обществу».

Распознавание лиц, конечно, не является чем-то революционным, но, по мнению авторов письма, то, как это делает Amazon, является крайне опасным и может задать прецедент. Суть такая. После недавних протестов черных американцев, считающих, что полиция относится к ним с предвзятостью, всех охранников правопорядка в США заставили носить на себе камеры. Чтобы в случае чего можно было определить, был ли офицер виноват в ситуации.

Amazon активно рекламирует возможности использования Rekognition именно вместе с такими камерами. Чтобы, скажем, в режиме реального времени система могла на ухо прошептать полицейскому «Справа в черной куртке и белой кепке идет подозреваемый в трёх убийствах». Но лидер движения Black Lives Matter Малькия Цирил говорит, что не верит новой технологии, и она, наоборот, сделает жизнь меньшинств хуже: «Это рецепт авторитаризма и катастрофы. Amazon не должен даже близко заниматься подобным, и если мы можем что-то об этом сделать, они и не будут. Камеры на теле полицейских не следят за полицейскими. Они следят за теми, на кого смотрят полицейские, – за нами, за общинами, за такими людьми, как я. Технология – инструмент. Предлагая такой инструмент в контексте крайнего расизма и жестокости можно только усилить этот расизм и жестокость. Учитывая вычислительные мощности Amazon, вы, по сути, перестаете подпитывать эту систему дискриминации с помощью батарейки, и вместо этого подключаете ее к атомной электростанции. Вы увеличиваете не только скорость, но и масштаб того, как государство может вмешиваться в наши жизни».

Rekognition может позволить полиции в режиме реального времени обнаруживать, кто присоединился к протесту. Или кто является нелегальным иммигрантом. «Это представляет фатальную угрозу общинам», – организации пишут в своем письме к Amazon. – «Люди должны иметь возможность свободно ходить по улице, без страха быть наблюдаемыми государством».

В приложении к письму ACLU опубликовала серию внутренних писем между Amazon и правоохранительными органами в Орегоном, которую она получила через официальный запрос. Ничего криминального там, конечно, нет, но интересно, что даже сами шерифы во время общения с представителями Amazon были слегка на нервах по поводу того, «как это может воспринять публика». И просили замедлить внедрение новых систем, чтобы дать людям время адаптироваться.

Там же есть переписки с полицией Калифорнии и Аризоны, которые спрашивали Орегон, насколько эффективной оказалась их новая система, и насколько быстро её можно внедрить. Оказалось, что офису шерифа установка Rekognition обошлась всего в $400 – чтобы загрузить 305 тысяч фото с профилями в систему. И $6 в месяц для продолжения пользования сервисом. Дешевле, чем два биг-мака.

На претензии общественных организаций AWS ответили в заявлении, что если клиенты не следуют букве закона, их отключают от сервиса. И пообещали впредь пристальнее следить за тем, как используется их технология.

Из заявления Amazon: «Качество нашей жизни сегодня было бы намного хуже, если бы мы запрещали каждое новое изобретение всякий раз, когда какие-то люди могли найти способ им злоупотреблять. Представьте, если вам нельзя было бы купить компьютер, потому что его можно использовать для нелегальной активности?».

Но успокоить людей не так просто, и страхи общества по поводу систем слежки, использующих алгоритмы глубокого обучения, в Штатах продолжают нарастать. Несколько недель назад около дюжины сотрудников Google уволились в качестве протеста против решения поисковика объединиться с Министерством обороны США в разработке «Проекта Мейвен». Этот проект создает Artificial intelligence — искусственный интеллект, который будет анализировать и определять объекты в поле видимости дрона (скажем, при поиске террористов ИГИЛ). Сотрудники Google были против того, чтобы их технологии использовались для убийства людей.

Rekognition, тем временем, уже существует, и по многим показателям оказывается намного мощнее. Системе безразлично, какой контент ей «скармливают» – видео с дрона, телепередачу, запись камеры из магазина. Она может за долю секунды распознать до 100 лиц в фотографиях толпы, и определить, кому они принадлежат. Единственное, что ей нужно – достаточно серьезная база данных, с которой эти лица можно было бы сравнить. К счастью (для Amazon, но не для правозащитников), такая база данных есть у полиции.

В 2016-м исследователи из Университета Джорджтауна обнаружили, что в ней находится каждый второй взрослый американец – 117 млн человек. Причем большинство из этих записей не афишируются и никем не регулируются.

Расовый вопрос


Еще одна большая критика всех американских систем распознавания лиц, и Rekognition в частности, касается их «предвзятости» по отношению к женщинам, неграм и мусульманам. Если вкратце, суть в том, что нейросети тренируются в основном на фото белых мужчин – просто из-за того, что их больше. Как результат, технология учится очень хорошо отличать таких мужчин от всех других, и для них работает практически без ошибок.

А вот для женщин и чернокожих эти нейросистемы, как правило, работают хуже. Исследование MIT, например, показало, что одна похожая система, использующая алгоритмы глубокого обучения, в 35% случаев думала, что темнокожие женщины являются мужчинами – хотя для белых женщин ошибок практически не было.

Rekognition, конечно, намного умнее. Но всё-таки если на каждую фотографию белого подозреваемого в среднем найдется три-четыре «похожих» лица в базе данных, то для негра она может выдать двадцать или тридцать результатов. Из которых полицейским будет проще найти «того самого», даже если в действительности это не преступник. В результате, опасаются эксперты, процент обысков и арестов среди расовых меньшинств с такой системой может только возрасти. А Америке сейчас только этого не хватало.

Успешный пример работы похожей технологии в Китае, где полиция в режиме реального времени отслеживает преступников и определяет «людей с низким социальным капиталом» при помощи их фотографии и отпечатков пальцев, критиков Rekognition не впечатляет. Они говорят, в Китае, с его гомогенизированным населением, таким системам работать проще, чем в Америке, учитывая её культурное и расовое разнообразие. Плюс, возможно, китайскому гражданскому обществу и не нравится такое вмешательство государства в частную жизнь людей, просто оно недостаточно организовано, чтобы что-то возразить.

Финальный аргумент противников Rekognition – FRVT. Уже больше года Национальный институт стандартов и технологий в США тестирует системы от десятков компаний, разрабатывающих свои технологии распознавания лиц. Чтобы проверить, какая работает точнее, и у кого какие недостатки в сравнении с остальными. Проект называется Facial Recognition Vendor Test. Именно из него в основном берется информация о том, что всех не-белых не-мужчин системы распознают хуже (из 62 образцов в прошлом году только четыре не показали почти никаких отклонений в зависимости от расы). Amazon свою систему для тестирования институту не предоставляет – что дает скептикам повод еще раз сказать, что «что-то здесь не так».