Statystyka w badanich użyteczności

Statystyka w badaniach użytecznościZastanawiając się nad kolejnym merytorycznym artykułem, który mógłby ukazać się na łamach UCD, mój wybór padł na miary użyteczności stosowane w badaniach użyteczności z użytkownikami. W każdej agencji zajmującej się badaniem użyteczności prowadzone są badania z użytkownikami.

Sam pracując w Symetrii miałem okazję uczestniczyć w tego typu badaniach i współpracować z prawdziwym ekspertem w tej dziedzinie, Piotrem Jardanowskim, kierującym działem badań w poznańskiej agencji.

Już na etapie przystępowania do konstrukcji scenariusza badania, pojawiają się pytania, na które trzeba odpowiedzieć, by nasze badanie miało jakikolwiek sens i znaczenie. Pytania te dotyczą przede wszystkim ilości badanych, sposobu doboru próby, kształtu samego scenariusza badania, stopnia zaangażowania badacza w proces badania. Artykuł ten stanowi pierwszą część, większego cyklu artykułów na temat wykorzystania narzędzi statystycznych w przeprowadzaniu i analizie wyników badań z użytkownikami.

Pisząc ten artykuł w dużym stopniu, opieram się na własnych doświadczeniach, wiedzy o statystyce opisowej, opracowaniach branżowych, z których jedno pełni rolę pierwszoplanową, mianowicie – Measuring the User Experience Collecting, Analyzing, and Presenting Usability Metrics (Interactive Technologies), Toma Tullisa i Billa Alberta.

Czym są miary?

Miara to sposób na zmierzenie/określenie wartości danego zjawiska. Miarą długości może być metr, kilometr albo cal, za pomocą miar jesteśmy w stanie porównywać określone rzeczy i wyliczać związki między nimi. O ile dłuższa odległość A od odległości B w metrach. Miary stosowane w badaniach użyteczności muszą spełniać kilka warunkach by były poprawne:

Stosowane miary użytecznością muszą być:

  • Związane z interakcją między systemem, a użytkownikiem, muszą badać ludzkie zachowania i motywacje w trackie interakcji z aplikacją.
  • Zaobserwowane – wystarczy określenie czy np. zadanie zostało wykonane, albo jaki był czas wykonania zadania.
  • Obliczalne, każdy wynik musi być przedstawiony w postaci liczbowej.

Sam prowadząc projekty często słyszałem od swoich klientów pytanie o możliwość rzutowania wyników z badania użyteczności na populację. Jednak populacja określona przy tych projektach zwykle była bardzo szeroka – co najmniej kilka milionów osób, zatem możliwość wnioskowania o populacji na podstawie badań na kilku użytkowników nie była możliwa, (opatrzona byłaby zbyt dużym błędem). O możliwości rzutowania wyników na populację, czyli m.in. określaniu przedziałów ufności otrzymanych wyników mowa będzie później.

Wielkość próby i sposoby jej doboru

To chyba jedno z pytań, które są powszechnie zadawane w branży użyteczności. Początek rozważaniom na temat liczby potrzebnych do badania użytkowników rozpoczął zdaje się jakieś ćwierć wieku temu Jakob Nielsen. Badania mające ustalić optymalną ilość użytkowników prowadzone były co najmniej kilkukrotnie. Nigdy nie określono jednej uniwersalnej liczby użytkowników, która musi zostać zrekrutowania do badania. W zależności od badania i tego jakie rezultaty spodziewamy się uzyskać, liczba użytkowników jest zmienna. Na pewno powinniśmy się starać by nasza próbka była w miarę reprezentatywna, czyli jeśli testujemy serwis skierowany do nastolatków zainteresowanych mangą i anime, to najlepiej zrekrutować osoby w tym przedziale wiekowym z tymi konkretnie zainteresowaniami.

Stara zasada mówi, że lepiej testować serwis nawet z jednym użytkownikiem, niż w ogóle tego nie robić. Specyfika badań użyteczności, jest taka, że nawet wyniki badania z jednym użytkownikiem mogą powiedzieć badaczowi bardzo wiele na temat użyteczności testowanego systemu.

Idąc dalej, możemy określić kilka metod doboru próby, zwykle jednak albo stosujemy dobór losowy, a więc każda osoba z danej populacji ma takie same szanse by stać się naszym badanym (znaleźć się w próbce), albo (co jest znacznie powszechniejsze) – metoda określana przez Tullisa jako „sample convenience”, w zasadzie jest wygodny dobór próby poprzez np. publikację ogłoszenia, że poszukuje się uczestników do badania, którzy spełnialiby określoną w badaniu charakterystykę.

Czy oni mi zaufają? Czyli czym są przedziały ufności i poziom ufności?

Jeśli chcemy aby otrzymane przez nas wyniki były reprezentatywne dla całej badanej przez nas populacji, musimy dysponować odpowiednio dużą próbą badawczą. Jeśli nie ma znaczenia, czy nasze wyniki, są reprezentatywne, to możemy testować z kilkoma użytkownikami i nie zawracać sobie głowy liczebnością i zróżnicowaniem populacji.

Przedział ufności określa jak bardzo możesz być pewny, albo jak bardzo niepewny, że otrzymane przez ciebie wyniki z badanej próbki są reprezentatywne dla całej badanej populacji. Powiedzmy, że na 10 użytkowników, 8 wykonało zadanie, czy takie wyniki dają nam prawo do tego, by twierdzić, że 80% populacji wykona zadanie z testu. Oczywiście, że nie.

Próba reprezentatywna to taka próba, która:

  • Daje podstawy do uogólnienia na cała populację
  • Pozwala określić możliwy błąd przy uogólnieniu na populację
  • Dobierana jest według ściśle określonych zasad
  • Zazwyczaj jest dość liczna

Oto jak w swojej książce Tullis i Albert wyjaśniają znaczenia przedziałów ufności (nie mylić z poziomem ufności), w stosunku do czasu wykonania zadania.
Przedział ufności dla czasu zadań
Przykładowo załóżmy, że musisz oszacować średnią dla całej populacji i chcesz być na 95% pewny tego, że twoja wyliczona średnia jest prawidłowa. Na obrazku powyżej 95% przedział ufności wynosi powyżej 7 sekund. Oznacza to, że masz 95% pewność, że średnia realizacji zadania otrzymana w trakcie badań, czyli 35 sekund, będzie wynosi w całej populacji 35 sek. ±7, albo między 28, a 42 sek.

Wynik między 28, a 42 sek. to nasz przedział ufności. Natomiast 95% to poziom ufności, który został założony na początku, czyli stopień tego na ile jesteśmy pewni, o czymś.

Czy próba powinna być reprezentatywna?

Jeśli badana populacja to nie wszyscy użytkownicy Internetu w Polsce, a jakaś mniejsza grupa np. wcześniej wspomniani księgowi, lekarze, czy użytkownicy programów ERP, wówczas możemy się pokusić o przeprowadzenie testów użyteczności, które będą reprezentatywne. Przy mniejszej populacji, ilość badanych, czyli liczebność próby może być mniejsza niż w przypadku wszystkich Internautów, przy zachowaniu rozsądnych przedziałów ufności, przy danym poziomie ufności – powiedzmy 95% pewności. Im mniejsza populacja tym mniejsza jest potrzebna próba by móc rzutować otrzymane dane na badaną populację z danym prawdopodobieństwem (czyli poziomem ufności).

Zwykle jednak testując masowe serwisy, gdzie populacja badana to kilka milinów osób, klient nie ma ochoty płacić dodatkowych pieniędzy za przeprowadzenie badań reprezentatywnych. Czy takie reprezentatywność wyników jest konieczna, to już inna sprawa, zależy od testowanego systemu, celów badania, kosztów i życzeń klienta.

Udostępnij:
  • del.icio.us
  • Facebook
  • Wykop
  • Digg
  • Slashdot
  • Technorati
  • Print this article!
  • Twitter

Skomentuj