Персонифицированный и социальный поиск от Яндекса
 
Персонифицированный и социальный поиск от Яндекса
06.03.2013 02:56:08
Битрикс
217
Обзор Яндекса 
Обзор Яндекса

1997

Был запущен Yandex.ru

№5

Поисковик №5 в мире (по количеству запросов)

180 млн

поисковых запросов в день

Офисы

  • Москва
  • 6 офисов в России
  • 3 офиса в Украине
  • Стамбул (Турция)
  • Цюрих (Швейцария)
  • Пало Альто (Калифорния, США)

    Разнообразие рынков

    1.png

    - 16 стран

    - 77 регионов в России

    Краткое содержание разговора

    > Проблемы ориентированного на пользователя (персонифицированного) поиска

    > Долгосрочная (пользовательская) персонализация

    > Предпочения темы поиска

    > Демография

    > Знание иностранного языка

    > Краткосрочная (основанная на сессии) персонализация

    > Завершение запроса

    > Рейтинг на основе сессии

    > Яндекс и общество изучения IR

    Проблемы ориентированного на пользователя поиска

    - Персонифицированный интерфейс и обратная связь с пользователем

    - Функция оценки и цели

    - Тест переоптимизации против принятия

    - Многократные воплощения пользователя

    - Инфраструктура в реальном времени

    Yandex|Поиск

    Мысли пользователя

    > Дорогой Яндекс ((Google/Bing/Baidu/Ask)! У тебя (всегда) совершенно неправильное предположение о том, кто я.

    - Я очень сложный, знаете ли.

    > Мне нужны лучшие, универсальные ответы, не хуже чем те, что получают мои соседи, друзья и жена

    - А ты слишком приставучий!

    2

    Персонифицированный интерфейс и обратная связь с пользователем

    > Пользователи

    Не очень рады, когда узнают, что их результаты персонифицированы

    «Рады» (судя по количеству кликов). Когда результаты персонифицированы и им «все равно»

    > Затрудняются передать сообщение в доступном и понятном виде, что

    - произошла персонализация

    - способ ее происхождения

    > Затрудняются получить явную обратную связь об успешной/неуспешной персонализации.

    Функция оценки и цели

    > Подход Крэнфилда не работает

    Оценки должны производиться в пользовательском контексте

    > Мы должны основываться на пользовательских показателях

    TDI многообещающий, но еще не до конца изучен

    > Функция цели не до конца определена

    Может быть позицией «последнего удовлетворительного клика»

    Тест переоптимизации против принятия

    > Как результат подхода, основанного на пользовательском поведении

    Сильная корреляция функции рейтинга со свойствами кликов

    > Инструменты теста принятия могут быть легко «сломаны»

    Мы должны умнее относиться к свойствам кликов

    Либо вообще их избегать

    Многократные воплощения пользователей

    > У пользователя есть несколько «инкарнаций»

    Я на работе

    Я в кино (или кинотеатре)

    Я дома

    > Каждая из них требует отдельного рейтинга

    Первый способ это определить установки этой окружающей среды

    Что еще?

    Инфраструктура в реальном времени

    Алгоритмы, основанные на сессиях реального времени

    - сложны

    - требуют поддержки соответствующей инфраструктуры

    Типичные большие системы поиска в интернете

    - сильно неоднородны

    - сильно распределены

    Доставка информации Яндекса о «краткосрочной истории»

    - за 7 секунд мы можем собрать «краткосрочную историю» 95% запросов

    Долгосрочные предпочтения темы

    > Постоянно строящиеся модели пользовательского языка

    - Путем анализа кликов и пропусков

    Около 20 свойств, связанных с пользователем, основанных на

    - предпочтениях определенных хостов

    - показателях просмотренных/непросмотренных ссылок

    - показателях предыдущих запросов

    - пользовательские особенности: напр., интенсивность кликов

    > Оптимизация под позиции «последнего удовлетворительного» клика

    Знание иностранного языка

    3

    Когда пользователи не ожидают результатов на иностранном языке

    > «nokia» (nokia.ru лучше)

    > «facebook» (у Facebook есть русская страница)

    > «radio c» (Русское, бразильское или венгерское?)

    > «American pie 2», «volkswagen tuareg», «world of tanks», «harry potter» и многое другое

    Классификация пользователей по уровню знания иностранного языка

    - 80% - пользователи с неопределенными языковыми предпочтениями

    - 12.5% - пользователи, которые никогда не просматривают англоязычные страницы (англофобы)

    - 7.5% - пользователи, которые не против англоязычных страниц (англофилы)

    Результаты могут быть соответственно изменены

    - Максимизировать разнообразие (напр., ERR-IA)

    - Минимизировать количество англоязычных страниц или

    - Максимизировать ERR без изменений языка

    Независимый рейтинг для «англофилов»

    - Отказ -1.9%

    - CTR позиций 1,2,3 +2.1%

    - CTR нерусских результатов +7%

    Демография

    Рейтинг, основанный на демографии

    Наша цель – оптимизировать позицию последнего «удовлетворительного клика»

    Определить вектор пользовательской демографии (ВПД) как лист ценностей для их вероятности принадлежать к определенному

    - Полу

    - Возрастной группе

    - Классу достатка

    Где сам ВПД получается из

    - Испытательного набора пользователей, явно самоопределившихся

    - Набора внутренних (собственных) свойств классификационного движка (Crypta)

    Настройка динамической сетевой модели Байеса (Chapelle и др., 2009)

    - Предсказание кликов и возможности удовлетворения с помощью ВПД путем

    - Испытания отдельных логистических функций регрессии для оценки каждой переменной

    Улучшение MRR(%) для каждого последнего «удовлетворительно клика», для запросов с разным уровнем энтропии кликов:

    Завершение запроса на основе сессии

    [Гарри Поттер]

    4

    [haskell]

    5

    > Легкий подход

    - Предыдущий запрос осуществлялся через поле HTTP Referrer

    > Потенциальные предложения собирались в течение 3 предыдущих месяцев

    > Найти частые пары среди предложений

    > Интегрировать эти «правила» в механизм рейтинга предложений

    > Для осуществления идеи потребовалась одна неделя

    Обновление рейтинга на основе сессии

    Рейтинг на основе сессии

    > Отбросить несвязанные пары последовательных запросов

    - Основываясь на классификаторе, говорящем, одинаковы ли информационные запросы.

    > Рассчитать свойства, основанные на предыдущем запросе

    - Поведение пользователя

    - Релевантность текста

    - Связанность запросов

    > Переоценить и улучшить целевые показатели кликов

    - Способ позиции кликов MCP

    - Способ позиции первого клика MCP

    - Способ взаимного рейтинга кликов MRR

    Яндекс и общество изучения IR

    Задачи, предлагаемые Яндексом:

    > Предыдущая задача предсказания релевантности:

    - Большой объем анонимизированной информации по кликам, и…

    - Набор пар запросов URL с отместками релевантности

    - Предсказать отметки релевантности для испытательного набора

    - Отправить на https://imat-relpred.yandex.ru

    > Зарегистрировано 500 команд / 100 приняли участие

    > Соревнования продлились с 22 октября по 22 декабря 2011

    > 1400 ответов

    > Лучшие решения были представлены на семинаре Web Search Click Data на WSDM 2012

    > Следующая задача предсказания поисковых действий

    - Большой объем анонимизированной информации по кликам, включая…

    - ID пользователя (поэтому, пожалуйста, персонифицируйте)

    - Предсказать следующее поисковое действие в сессии:

    - Query, Click, EndOfSession или SearchEngineSwitch

    Станет частью семинара Web Search Click Data на WSDM 2013

    Автор: Илья Сегалович | Яндекс

Загрузка...