vk_logo twitter_logo facebook_logo googleplus_logo youtube_logo telegram_logo telegram_logo

Как измерить артефакт 11

Дата публикации: 12.01.2010
Количество просмотров: 3259
Автор:

[В ответ на №2879]

Последнее время значимость статистики перед чутьем явно недооценена, будь она прикладываема к артефактам интернетов. Так уж сложилось, что "попробовать" намного проще, чем найти способ измерения, продраться через сотню параметров и найти тот объективный показатель, который приведет к успеху. Об этом мы и поговорим.

Однако, хорошо талантливым. Всем остальным остается вооружаться наукой. А научный подход заключается в пробах, ошибках и постоянных измерениях. В обмен на это, научный подход обещает прогнозируемость отложенных результатов (вместо предчуствия), возможность переноса опыта не только между проектами, но и между людьми.

Чтобы чем-то управлять, это необходимо измерить // из голословного утверждения уже забытой книги

Я предлагаю разбирать на примере реального сервиса, к которому я буду ссылаться. Для начала необходимо четко определить объект исследования. Именно от его признаков, которые мы определим как "релевантные", будет зависеть список измеряемых параметров, глубина рекурсии зависит от личных предпочтений и конкретного наличия времени.

В нашем случае проект называется так: "Файлообменная сеть пользователей". Отсюда следует, что ключевыми признаками будут: пользователи, файлы и сеть. Признаками второго рода:

  • Пользователи: количество, географическое распределение, распределение по времени появления, длительности пребывания
  • Файлы: типы файлов, размер файлов, количество файлов, количество дубликатов, некий определитель востребованности
  • Сеть: пропускная способность, нагрузка, архитектура

Что из этого может быть измерено, то есть имеет отображение в неких единицах и может буть получено за сравнительно небольшую стоимость? Отфильтруем:

  • предельная пропускная возможность сети
  • текущая нагрузка сети
  • количество пользователей
  • скорость "набегания пользователей" (то есть количество новых/подключающихся пользователей в единицу времени) в зависимости от времени суток и дня недели
  • скорость "пропадания пользователей" (то есть количество отключающихся пользователей в единицу времени) в зависимости от времени суток и дня недели
  • длительность сеанса пользователя в зависимости от времени суток и дня недели
  • размер файлов, в распределении по типам контента
  • количество дубликатов файлов-маркеров (не стоит проверять 1,5 Пбайта контента)
  • динамика интереса к файлам-маркерам (то есть количество "скачиваний" за единицу времени)

Эти параметры позволяют оценить не только сам сервис, но и часть его окружения (которую мы приняли за важную).

Что у нас было в начале данного исследования, кроме предположений экспертов? Мы знали, что по вечерам на хабе зарегистрировано несколько тысяч пользователей. Экспериментально было установлено, что файл размером в 1,4 Гбайта "скачивается" за 20-25 минут. По ночам на хабе было несколько сотен зарегистрированных пользователей и на скачивание того же файла тратилось до 40-50 минут.

На основании анализа требований пользователей было выявлено, что на плучение такого файла они готовы тратить 15 минут. Это и было принято за цель.

От чего зависит скорость получения файла? От количества "раздающих" и от технических возможностей сети (то есть "предельная пропускная возможность сети" - "текущая нагрузка сети"). Возможности оборудования клиента во внимание не принимались.

Узнать технические возмоджночти сети просто - есть вполне штатные и привычные инструменты. А как узнать количество раздающих? Анализом аудитории. Первая статитика, которую я запросил, состояла из двух отчетов:

  1. Количество зарегистрированных пользователей на хабе в момент времени (пятиминутные срезы в течении дня) - это избавило от необходимости сутками смотреть на счетчик и получить картину за 4 недели.
  2. Количество сеансов пользователей в группах "до 5 минут", "от 5 до 15", "от 15 до 30" и так далее.

Этих отчетов оказалось крайне недостаточно - они не давали понимания поведения пользователей. Был сильный всплеск на "до 5 минут", высокий пик "от 5 до 15", примерно такой же "от 15 до 30", и значительно меньшие на "от 30 до часу" и далее по нисходящей. На первом графике отчетливо прослеживалась "волновая" характеристика количества пользователей.

Тогда было принято решение измерить несколько более сложные параметры - скорости "набегания" и "пропадания". И тут была получена интересная картина (привожу метрику и вывод, полученный из нее):

  • Пользователи появляются утром и вечером сверхкороткими сеансами, продолжительностью до 2 минут - ПО запускается вместе с загрузкой компьютера и сразу же закрывается пользователем, так как пользователь не понимает разницу между "закрыть" и "свернуть", а два раз, потому что утром смотрят погоду, "огород" и так далее.
  • Вечером, начиная с шести часов, пользователи "набегают" с высокой скоростью, сеансами по 20-25 минут, после чего уходят - пользователи получают искомый файл и закрывают программы, потому что "Х" и "_" - для нах одно и то же.
  • Часть сеансов пользователей, начинающихся после 8 часов вечера имеют большую продолжительность (до 3-4 часов) - пользователи читают "чат хаба". Далее соотношение читающих к пишущим было проверено просто - через ссылку-ловушку: в чат отправляли URL и смотрели количество переходов. На 20 пишущих (чьи имена упоминались в переписках) регистрировалрось по 200 и более переходов, что в общих чертах было похоже на количество "длинных" сеансов.

Почему в чате люди появлялись позже? Потому что сначала они кушали, потом садились за компьютер. Почему такое большое количество сеансов по 20-25 минут? Потому что большую часть пользователей интересует один файл в день (позже выяснили, что три файла в неделю).

Что нам дали эти цифры? Вот что мы предприняли:

  1. Заменили действие ПО по "Х" на аналогичное "_". Теперь программа не закрывалась, а пряталась в трей. Большинство пользователей не испытали с этим никаких неудобств.
  2. Стали по-умолчанию раздавать скачанный контент. Это так же не вызвало массового недовольства, однако в последствии сыграло как положительную, так и отрицательную роль для пользователей
  3. Определили время, когда интерес к проекту максимален, а так же четко определили количественно размер аудитории и его динамику в течении дня и недели (что позволило определить SLA сервиса по всем показателям).

Какие результаты принесли эти действия (помимо некоторого недовольства тех, кто не пользовался этим ПО, но проявляет склонность к троллингу)? Самый выажный: файл рзмером в 1,4 Гбайта скачивался за 15 минут, потому что:

  • Раз программа не закрывается, то она длительное время функционирует (как показала статистика, по утрам средний новосибирец использует компьютер 15 минут, а по вечерам - 4 часа).
  • Раз скачаное раздается, то количество копий (сидеров) резко возрасло, что положительно сказалось на скорости получения файлов.

Так наша цель была достигнута. Кроме того мы уточнили портреты пользователей (в том числе их количественные характеристики), что позволило скорректировать дизайн программы (это должно было отразиться на количестве пользователей), поведение редакции, спрогнозировало нагрузку на сервера (в том числе на праздничные дни) и так далее.

 В завершение резюмирую: в артефакте необходимо выявить некий минимум релевантных измеримых параметров, изменения которых вы будете отслеживать в историческом контексте, то есть которые во-первых можно измерить, во-вторых их измерение не будет вам стоить астрономических сумм, в-третьих их измерение не должно быть связано с опросом людей (они вечно врут). Отслеживая изменение параметров в зависимости от ваших действий вы сможете выявить закономерности, осмысленое использование которых поможет в достижении цели.

* Артефакт — явление, процесс, предмет, свойство предмета или процесса, появление
которого в наблюдаемых условиях по естественным причинам невозможно или
маловероятно. Появление артефакта, следовательно, является признаком
целенаправленного вмешательства в наблюдаемый процесс, либо наличия
неких неучтённых факторов.

P.S. Если из всего поста вы прочитаете только резюме - это уже будет отлично.

Источник

От редакции: если у вас есть чем поделиться с коллегами по отрасли, приглашаем к сотрудничеству
Ссылка на материал, для размещения на сторонних ресурсах
/articles/blogs/17481/kak-izmerit-artefakt.html

Комментарии:(11) комментировать

13 января 2010 - 8:38
Navu:
#1

В нашем случае проект называется так: "Файлообменная сеть пользователей". Отсюда следует, что ключевыми признаками будут: пользователи, файлы и сеть.

Полный текст новости


13 января 2010 - 8:38
tcup:
#2

прошу уточнения. в заголовке статьи говорится об измерении артефакта. Что в данном конкретном случае с файлообменной сетью подразумевается под артефактом? если это погрешность измерений, вносимых при измерении, то где? ;)


13 января 2010 - 9:59
roling:
#3

Неплохая статья о том, что статистика рулит :)


13 января 2010 - 11:26
Rivia:
#4

Не по теме, но стало интересно - судя из статьи ваши сотрудники сами устанавливают и настраивают пользователям клиент для работы с сервером-хабом?


13 января 2010 - 12:11
Гость_Dron_:
#5

Если Вы софт дорабатываете, то могут ли эти доработки стать достоянием общественности? Или каждый оператор должен идти учить статистику, делать описанные исследования, нанимать программеров и т.д.


13 января 2010 - 13:10
roling:
#6

Кстати не отражен вопрос снятия статистики - на каком именно программном обеспечении сделан хаб, какой клиент использовался, в какой базе лежали данные, каким образом их собирали, агрегировали и обобщали?


13 января 2010 - 13:47
woddy:
#7

Просмотр сообщенияroling (13 января 2010 - 13:10) писал:

на каком именно программном обеспечении сделан хаб, какой клиент использовался, в какой базе лежали данные, каким образом их собирали, агрегировали и обобщали?

какая разница? это не влияет на анализ. хоть в экселе анализируйте.

Просмотр сообщенияDron (13 января 2010 - 12:11) писал:

Если Вы софт дорабатываете, то могут ли эти доработки стать достоянием общественности? Или каждый оператор должен идти учить статистику, делать описанные исследования, нанимать программеров и т.д.

то за что нами уплачены деньги подарить вам бесплатно?

http://news.ngs.ru/more/58074/


14 января 2010 - 0:23
Гость_Eieremiah_:
#8

> то за что нами уплачены деньги подарить вам бесплатно?
если ваш софт под GPL, то вы не просто бесплатно подарите, но ещё и извинитесь в суде за нарушение лицензии при отказе от высылания сорцов ) кстати, выложите сорцы, куда угодно и ссылочку. это не просьба.

> Кстати не отражен вопрос снятия статистики - на каком именно программном обеспечении сделан хаб, какой клиент использовался, в какой базе лежали данные, каким образом их собирали, агрегировали и обобщали?
зайдите - сами все узнаете.


14 января 2010 - 11:41
mantyr:
#9

Гость_Eieremiah_, да пошли вы в ****, уважаемый:) Если софт не продаётся, а используется для сугубо личных целей раскрывать код нет необходимости, исключением стали просьбы к Google и то исключительный характер был выражен в виде их отчаянной популярности и финансовой составляющей. Тем более, софт доступен для скачивания, а patch'и дело сугубо уникально-индивидуальное, так что идите и пишите своё:)

Кстати, речь идёт о Новотелекоме?


14 января 2010 - 17:48
Гость_gpl_user_:
#10

так вы же этот софт юзерам ставите
так что сорци выложить придется ну или с нуля хаб пишите


Обсудить на форуме

Оставлять комментарии могут только зарегистрированные пользователи

Зарегистрироваться