Компьютер разберёт, кого где сняли

Разделы

Статистика

Компьютер разберёт, кого где сняли

Вычислительные машины уже давно научились обыгрывать в шахматы самых титулованных гроссмейстеров планеты. По мнению ученых из Университета имени Карнеги-Меллона в американском штате Пенсильвания, пришло время научить машины более сложным навыкам. Одним из таких умений является способность распознавания географической информации по фотоснимку.

Поводом для развития работ в этом направлении для аспиранта Джеймса Хейса и его наставника, уроженца Санкт-Петербурга, а ныне американского доцента Алексея Эфроса послужило огромное количество фотографий, выложенных людьми во всемирной сети для публичного просмотра. Большая часть этих фотографий имеют географические метки, проставленные с помощью глобальной навигационной системы GPS, на основании которых и можно создать алгоритм для распознавания машиной наиболее вероятного места съемки.

Самой главной трудностью и, собственно, важнейшим достижением ученых явилась разработка алгоритма сравнения фотографий – неизвестных снимков с теми, что имеют точные географические координаты.

Подойти к решению этой проблемы можно с двух позиций. Первая подразумевает поиск простого геометрического соответствия объектов, изображенных на изучаемом снимке, с теми, что находятся в базе данных машины. Грубо говоря, для того чтобы определить географическое происхождение снимка, необходимо иметь такой же или очень похожий снимок в базе данных.

Однако такой метод простого сравнения вряд ли когда-нибудь сможет быть реализован в масштабах всей планеты, на что и нацелились американские ученые. Дело в том, что фотографий Храма Василия Блаженного в сети выложено огромное количество, а вот очередная улица Ленина в захолустном российском городке на просторах интернета может быть и вовсе не представлена, так что машине просто не с чем будет сравнивать этот снимок.

С другой стороны, в отличие от машины, человек – путь даже никогда и не бывавший на улице Ленина в городе Малоярославце – может вполне опознать в ней улицу Ленина как таковую, так как последняя очень похожа на улицу Ленина в Калуге или Дзержинске. Именно такой аппарат сравнения и был положен в основу алгоритма IM2GPS, разработанного учеными.

Чтобы наделить машину такими же способностями, ученые приняли во внимание тот факт, что очень многие объекты на поверхности Земли обладают большим сходством – хвойные леса всегда выглядят, как хвойные леса, горы — как горы, кухни — как кухни, магазины — как магазины и так далее.

Таким образом, чтобы распознать картинку и приписать ей какое-либо географическое местоположение, необходимо выделить небольшое количество характерных признаков и сопоставить с таковыми у известной фотографии. Если изучаемый снимок запечатлел какое-либо известное место, будь то Гранд-Каньон или церковь Покрова на Нерли, то аналогичное изображение практически наверняка окажется в базе данных и машина сможет выдать точное местоположение фотографа.

Если же изображение на фотографии носит более общий характер – например, «Закат на Волге», – то алгоритм IM2GPS заставит машину выдать пользователю несколько возможных местоположений, каждому из которых будет соответствовать определенная вероятность того, что фотография был сделана именно там.

При сопоставлении рисунков этот алгоритм не учитывает геометрических деталей – одежды, которую носят люди в этом регионе, языка, на котором написаны вывески и объявления, или типов растительности, на которые, в первую очередь, обратил бы внимание человек при просмотре фотоснимка. Вместо этого программа оценивает композицию фотографии – распределение цвета текстур на снимке, число и направление линий. После этого следует процедура сравнения этих показателей с базой данных, большинство фотографий для которой были взяты учеными с публичного ресурса Flickr.

Свои достижения ученые изложили в статье, приуроченной к конференции Института инженеров по электротехнике и радиоэлектронике, посвященной развитию компьютерного зрения и распознавания цифровых изображений объектов.

Такой подход может показаться постороннему человеку надуманным и неестественным, однако сам Эфрос поразился тому, насколько метод сравнения композиций фотографий может быть эффективным.

Ученым удалось установить географическое происхождение более 16% снимков из тестового набора двухсот с лишним фотографий и сопоставить его с эталонным набором с точностью в 200 км.

Эта величина в 30 раз превышает вероятность случайного совпадения. Если же алгоритм был не в состоянии определить место съемки очередного фото, то он все же успешно справлялся с классификацией изображения и относил его к фотографии леса, пустыни или средиземноморского прибоя. Например, он вполне четко сумел определить географическое положение снимков, запечатлевших Собор Парижской Богоматери, и определил, что узкие улочки Барселоны более типичны для средиземноморских деревень, чем для американских переулков.

Дальнейшее совершенствование методики, по которой работает алгоритм IM2GPS, может действительно привести к разработке так называемого компьютерного зрения, которое критически необходимо во многих областях человеческой деятельности. По мнению Эфроса, его алгоритм поможет усовершенствовать современные методики поиска фотографий и сделать его менее зависимым от названия файла или подписи картинки. Он же может помочь рядовым пользователям отсортировать фотографии, относящиеся, скажем, к недавнему путешествию в Египет. Наверняка подобным методом оценки географического источника фотографии заинтересуются криминалисты.

С точки зрения же науки и экономики, самой перспективной областью использования алгоритма является сопоставление полученных с его помощью сведений с географическими базами данных, в которых хранятся сведения о климате, плотности населения, местной флоре и фауне, топографии рельефа поверхности земли и том, как эта земля используется человеком.

В принципе, этот же алгоритм географической идентификации может быть использован и совместно с процессом распознавания конкретных объектов на фотографии. Например, если достоверно установлено, что снимок сделан в российском городе, то машина уже априори будет знать, как выглядят средства общественного транспорта, и сумеет распознать их на фотоснимке.

На сегодняшний день, по оценкам Эфроса и Хэйса, всемирная сеть содержит примерно шесть миллионов снимков, на которые может опереться алгоритм IM2GPS. Конечно, всего в сети снимков намного больше, однако у больше части из них географические тэги либо вовсе отсутствуют, либо не несут в себе достаточно конкретной информации. Так, например, Гранд-Каньон, помеченный тэгом «США», вряд ли может дать какую-либо точную географическую информацию. Именно по этому алгоритм опирается в своей базе данных исключительно на снимки с GPS-привязкой к конкретному региону.

Иногда, конечно, работа алгоритма приводит к забавным казусам.

Например, алгоритм умудрился принять здание Сиднейского оперного театра за один из лондонских мостов, а снимок Эйфелевой башни, сделанный на закате, показался компьютеру неотличимым фотографии Статуи свободы.

Наверняка в будущем этот алгоритм станет сложнее и мощнее, будет лучше справляться с распознаванием специфических объектов, таких как всемирно известные архитектурные сооружения или природные ориентиры. Специалисты получат еще одно средство для проведения мониторинга окружающей среды, здоровья городского социума или слежения за погодными катаклизмами. Ну а у рядовых пользователей появилось очередное средство развлечения.

Полюбоваться, насколько хорошо работает алгоритм, можно на странице проекта. Web-интерфейса для загрузки пользовательских фотографий у него пока нет. Возможно, учёные пекутся о своём авторском праве, дожидаясь, кто из интернет-гигантов предложит больше за воплощение алгоритма у себя на сайте.