Динозавры и история жизни на Земле

Статистика




Яндекс.Метрика




Матрица для "Яндекса"

Невзирая на День дурака, «Яндекс» собрал журналистов, чтобы рассказать, что такое MatrixNet и как новая технология повлияла на качество работы поискового движка и долю «Яндекса» на рынке поиска. Кроме того, руководители «Яндекса» сообщили, какие у компании планы на будущее есть, а каких — нет.

Было видно, что генеральный директор «Яндекса» Аркадий Волож и главный программист компании Илья Сегалович очень старались. Они рассказывали, насколько сложна задача поиска информации в сотнях миллионов веб-страниц, как много факторов при этом приходится учитывать, что в компании трудятся около тысячи асессоров (не путать с коллежскими асессорами), которые изо дня в день оценивают результаты поиска «Яндекс», что в компании уже давно практикуется машинное обучение (даже странно, что никто не шутил по поводу «Матрицы»), а программное обеспечение поискового движка совершенствуется, чтобы выдавать более релевантные результаты.

Но объяснить, чем механизм поиска, построенный на методе опорных векторов на основе размерности Вапника—Червоненкиса, отличается от разработанного Шапиром и Фридманом и усовершенствованного Гулиным и Карповичем методом boosting'a, собравшимся в «Рэдиссон САС Славянская» журналистам, кажется, всё равно не удалось. Волож и Сегалович даже показали фотографии всех этих симпатичных математиков, но пресс-конференция была слишком короткой, чтобы разобраться, в чём состоит преимущество «регуляризации значении? в листах вместо ограничения на количество самплов в листе».

В конце концов, они потратили слишком много сил на «Студень» — встречу со студентами, будущими инженерами, программистами и математиками (пресс-конференция проходила как раз параллельно с этим мероприятием), где сотрудники «Яндекс» объясняли не только картинками, но и с формулами, на какой математике сейчас работает крупнейшая российская IT-компания.

В общем, остаётся верить «Яндексу» на слово: его поиск теперь базируется на другой, более сложной математической модели, которая предполагает учёт значительно большего количества факторов для ранжирования за приемлемое время, тем самым делая поиск более качественным.

Пришедший на смену «Арзамасу» поисковый движок «Снежинск» («Яндекс» явно тяготеет к тому, чтобы приобщиться к осколкам советского «ядерного архипелага»), базирующийся на технологии MatrixNet, появился не вчера. Его запуск состоялся ещё 17 ноября 2009 года, что моментально заметили и конкуренты компании, и специалисты по веб-оптимизации, однако громогласно объявлять об этом событии «Яндекс» не стал, решив посмотреть, какими будут результаты. По «внутренним ощущениям», то есть по собственным критериям, благодаря новой технологии качество поиска «Яндекса» выросло сразу на 5%.

«Внутренним ощущениям» компании можно и не верить, но если заглянуть в статистику liveinternet.ru, то можно увидеть, за четыре месяца — с декабря 2009 по март 2010 — доля «Яндекса» на рынке поиска выросла на 4%, достигнув 62,9% рынка. За тот же период доля конкурирующих поисковиков — Google и Mail.Ru — немного снизилась. «Яндекс» считает, что столь значительным ростом компания обязана именно MatrixNet.

Повышение качества поиска, конечно, может привести к росту числа пользователей — только так ли быстро? У пользователей есть свои привычки, которые, как и всякие привычки, они не склонны менять скоропалительно. Судя по ненулевой доле Rambler, есть ненулевое количество пользователей, которые не готовы менять свои привычки, несмотря ни на что. С другой стороны, кардинальное изменение поиска на Mail.Ru, например, который больше не обслуживается «Яндексом», могло привести к увеличению доли последнего на рынке весьма значительно: разочарованные привычными результатами, пользователи главного российского почтовика могли обратиться именно к «Яндексу». Кстати, удивлены решением Mail.Ru были не только пользователи, но и, по словам Аркадия Воложа, сам «Яндекс». Настолько удивлён, что вряд ли решится вернуться, даже если Mail.Ru «одумается» и позовёт обратно.

Планов обслуживать поисковый сервис Mail.Ru у «Яндекса» теперь нет. Нет и других планов. Например, покупать ICQ: не так давно СМИ активно обсуждали перспективы этой всё ещё популярной в России службы мгновенных сообщений «продаться кому-нибудь», и «Яндекс» фигурировал среди главных претендентов на громкое приобретение. Но с математикой у «Яндекса», судя по MatrixNet, кажется, всё нормально, поэтому 1% поискового трафика от ICQ компании довольно. «А больше нам ничего и не надо», — радостно заметил Аркадий Волож. И в этот момент он напоминал человека, которому попытались втюхать китайский портативный пылесос для автомобиля, но он удачно избежал бессмысленных трат.

Кстати, о китайцах. Несмотря на то, что у «Яндекса» достаточно серверов и математиков, нет у него и планов выхода на китайский рынок. Google из Китая, видимо, уходит, и под боком у Baidu.com освободилось место для второго поисковика. Но воспользоваться этим шансом «Яндекс» не собирается и в Китай не стремится: того уровня государственного регулирования рынка, который есть в России, ему, судя по всему, хватает выше крыши, и прорываться через Великую китайскую стену китайской бюрократии ему явно не хочется. «Яндекс» готов помочь Baidu.com с математикой: технологии главного китайского поисковика находятся на уровне, не слишком отличающемся от Infoseek десятилетней давности. Но не более того.

Помимо планов, которых у «Яндекса» нет, есть у него планы, над реализацией которых он активно работает. Илья Сегалович рассказал оживившимся после презентации MatrixNet журналистам, что разработчики «Яндекса» трудятся над технологиями распознавания речи. Более того, уже в этом году такие функции появятся у пользователей мобильных приложений компании. Занимается «Яндекс» и распознаванием образов. Недалёк тот день, когда простой российский гражданин, проходя по Тверской и обнаружив там памятник неизвестному поэту, сможет навести на него объектив телефона, и MatrixNet «Яндекса» мгновенно определит, что это, и правда, Пушкин.

Хорошо, что определит, а не нарисует. В общем, даже счастье, что MatrixNet, несмотря на использование boosting'а, — это ещё не Матрица.