Проверка данных SimilarWeb и «Яндекс.Радара» показала погрешность в 30%

Поделиться

Компания OWOX провела исследование, сравнив точность данных SimilarWeb и Яндекс.Радар с данными Google Analytics на выборке из 550 сайтов. В среднем отклонение по количеству уникальных пользователей в обоих проектах – около 25%. У SimilarWeb отклонение больше зависит от посещаемости проекта, у Яндекс.Радар – от ниши.

Более подробно рассказывает на ресурсе vc.ru CEO OWOX Влад Флакс.

Для трезвой оценки рекламных кампаний нужны не только абсолютные результаты, но и возможность сравнить их с рынком. Например, маркетинг не выполнил план на 5% – это какой результат? Если рынок при этом вырос на 10% — то результат слабый, а если рынок просел на 10%, то хороший.

Источниками таких данных могут служить SimilarWeb и недавно запустившийся Яндекс.Радар. Сложность в том, что многие пользователи замечали, что в этих данных есть погрешность, но не знали, какая именно и насколько можно доверять полученным цифрам.

С одной стороны, такие сервисы и не должны давать точные данные — они служат для отслеживания трендов и независимого сравнения сайтов между собой. С другой стороны, мы заметили, что их показатели значительно отличаются от данных Google Analytics. Иногда в большую сторону, иногда в меньшую, и тренд из-за этого получался неправильным. Конечно, и данные в Google Analytics не абсолютно точные, но в целом мы считаем что они ближе к истинному значению, чем вычисленные косвенным путем.

Поэтому мы решили сравнить точность данных SimilarWeb и Яндекс.Радар с доступными нам в OWOX BI данными Google Analytics. Для сравнения использовались анонимные обезличенные данные 550 сайтов с посещаемостью более 100 тыс. уникальных пользователей в месяц.

Наша задача была ответить на вопрос «Насколько данные SimilarWeb и Яндекс.Радар отличаются от Google Analytics и от чего это зависит?» 

Но для начала стоит понять, откуда эти сервисы берут данные.

Природа данных

С Google Analytics все просто – скрипт встроен в код вашего сайта и собирает данные о поведении пользователей. Эта статистика недоступна третьим лицам.

SimilarWeb использует несколько сотен источников, которые можно условно разделить на 4 группы:
  • Глобальные панельные данные с сотен миллионов компьютеров и мобильных устройств. Это анонимная информация, которая не позволяет идентифицировать пользователя. Браузерные расширения и мобильные приложения собирают данные о том, какие сайты он посещает и как переходит с одного на другой.
  • Глобальные данные интернет-провайдеров с миллионами подписчиков.
  • Публичные источники данных с более чем миллиарда сайтов и приложений страниц.
  • Прямые измерения данных с сотен тысяч сайтов и приложений
Яндекс.Радар выделяет 10 000 сайтов по наибольшему количеству посетителей из России. Рейтинг формируется на основе агрегированных обезличенных данных Яндекс.Браузера, Элементов Яндекса, Визуальных закладок, а также браузерных расширений и других продуктов Яндекса. По умолчанию данные аналитических сервисов Яндекса не учитываются.

Как считали погрешность

Чтобы определить, с какой погрешностью эти сервисы определяют посещаемость сайтов, мы сделали следующее:

  • Взяли обезличенные данные сайтов с посещаемостью от 100 тыс. уникальных пользователей (сайты, к которым имеет доступ OWOX BI)
  • Дополнили их данными о количестве уникальных пользователей из SimilarWeb и Яндекс.Радар за ноябрь 2018 года
  • Отфильтровали сайты, для которых в Google Analytics были аномально низкие значения. (Например, если по данным Google Analytics количество пользователей было на порядок меньше, то, вероятнее всего, Google Analytics собирает неполные данные из-за фильтров в представлении).

При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши. Для сравнения в качестве метрики мы выбрали уникальных пользователей, так как алгоритм формирования сессий у разных сервисов отличается. Период – ноябрь, потому что декабрь для многих проектов является аномальным месяцем.

В результате мы получили для анализа данные 550 сайтов и вот что увидели.

Результаты

По данным Яндекс.Радар количество уникальных пользователей выше, чем значение в Google Analytics, для 29% сайтов. У SimilarWeb — для 27% сайтов. В целом можно сказать, что Яндекс.Радар и SimilarWeb чаще показывают значение ниже, чем в Google Analytics. Мы здесь специально не используем критерий «правильное» или «неправильное», потому что это зависит от того, с чем вы сравниваете.

Стандартное отклонение у SimilarWeb – 29%, у Яндекс.Радар – 31%. Причем у SimilarWeb оно меньше зависит от посещаемости проекта (в пределах 1-2%), тогда как у Яндекс.Радара – отклонение до 4%.

sm1.png

При этом и у SimilarWeb, и у Яндекс.Радар отклонение сильно зависит от ниши:

screenshot-leonardo.osnova.io-2019.03.19-11-39-24.png

Можно предположить, что это связано с природой данных в обучающей выборке, которую сервисы использовали в своих моделях. Например, SimilarWeb активнее использует аддоны, а Яндекс.Радар – Яндекс.Метрику. Это объясняет меньшее отклонение для ecommerce проектов и большее для медийных.

Так что, если вы работаете в ecommerce проекте и вас лишили премии за то, что у конкурента посещаемость по данным Similarweb на 20% больше, то с вероятностью 45% это сделали несправедливо.

Что все это означает

Однозначно и SimilarWeb, и Яндекс.Радар служат ценным источником рыночных данных. Но использовать их надо, как и любой аналитический инструмент, с пониманием природы собранных данных и погрешности измерения, так как для многих расчетов и оценок, отклонение в 30% может оказаться критичным. Надеемся, что полученные результаты помогут вам повысить качество решений, которые вы принимаете на основе данных.

Поделиться
Материалы по теме:
Обсуждение:
Читайте также: