Vasja Vehovar

MERJENJE UPORABNOSTI SPLETIH PREDSTAVITEV


POVZETEK


Članek obravnava merjenje uporabnosti spletnih predstavitev in se osredotoča na  vidik navigacije/orientacije. Prikazano je ocenjevanje na osnovi opazovanja, kvalitativne analize, izpolnjevanja nalog, predvsem pa standardizirano ocenjevanje v reprezentativnih telefonskih anketah projekta RIS, kjer se kot problem kažejo predvsem vpliv kontrolnih spremenljivk, način anketiranja in postavitve vprašanja. Čeprav je ocenjevanje uporabnosti posamezne spletne predstavitve razmeroma enostavno, pa je vzpostavitev primerljivih indikatorjev metodološko izredno težavno.

1.UVOD

Termin »usability« prevajamo kot uporabnost in se nanaša na proučevanje vmesnika (»interface«) oziroma interakcije med človekom in računalnikom. Uporabnost najpogosteje opredeljujemo z učinkovitostjo, s katero uporabljamo določen sistem, nanaša pa se na preprostost učenja, koristnost uporabe, zapomljivost, nevarnost napak in na zadovoljstvo z uporabo. Področje je že pred razmahom interneta doživelo določeno zrelost (npr. Shneiderman, 1987) in se ne nanaša samo na računalnike, saj je prototip študije uporabnosti pravzaprav video-rekorder (npr. nastavitev snemanja TV oddaje v naši odsotnosti).

Z razmahom Interneta so postale računalniško posredovane vsebine bolj številne, opravila pa bolj kompleksna. Ne gre več samo za pregledovanje informacij, ampak tudi za nakupovanje, interaktivno komunikacijo, igre, uradne transakcije, ipd.

Danes je analiza uporabnosti postala obsežno področje s številnimi priročniki (npr. Niederst&Koman, 1998) in spletnimi predstavitvami (npr. Usable Web, 2001). Posebej znan je Jakob Nielsen, ki je zaslovel z lucidnimi in poenostavljenimi izjavami, npr. o minimalnem številu testnih uporabnikov, ki zadoščajo za odkritje 80% vseh izboljšav, pa o maksimalnem številu sekund nalaganja, ki jih še prenese uporabnik, ipd. Napisal je tudi množico knjig, člankov in kolumen ter poskrbel, da se vse to nahaja na vrhu spletnih iskalnikov in imenikov (Useit.com, 2001). Ob tem velja zato omeniti še zapis, ki do njegovega dela postavlja distanco (The Jakob Nielsen Drinking Game, 2001).

Pojem uporabnosti se močno prepleta z drugim vidiki oblikovanja spletnih predstavitev[1], od kreativnosti, estetike, grafike, designa, programiranja, informatike, prek organizacijskih in vsebinskih vidikov vzdrževanja, do všečnosti s strani uporabnikov. Razmejitev pogosto ni jasna[IQ1] , vsekakor pa pojem uporabnosti povezuje vse navedene profile s tržniki, saj prav uporabnost omogoča, da se obiskovalci na predstavitvi zadržijo dlje in se pogosteje vračajo.

Pri standardnih testih uporabnosti se pogosto omenja, da tovrstni stroški zavzemajo 1-10% vrednosti celotnega projekta, testiranje pa traja od nekaj dni do nekaj let, kar vse je odvisno od faze in novosti projekta, pričakovanega števila uporabnikov, kritičnosti vmesnika za uporabnike (npr. medicinske in finančne vsebine), stroškov testiranja, razpoložljivega časa, izkušnje testnih izvajalcev, ipd.

Uporabnost spletnih predstavitev lahko analiziramo na več načinov. Omenimo nekaj najpogostejših:

·        focus skupine,

·        poglobljeni intervjuji (med eksperti ali tipičnimi uporabniki),

·        analiza logov,

·        standardna "usability" analiza - laboratorijsko opazovanje in kodiranje testnih uporabnikov pri izvajanju standardiziranih nalog,

·        z opazovanje in analizo spletne predstavitve, kjer se kodirajo karakteristike kot npr. ali obstaja jasen kontaktni email na prvi strani, število nivojev ipd.,

·        sprejemanje strani (acceptance tests): število napak, trajanja uvajanja, hitrost izvajanja nalog,

·        kontrolirani psihološki in kognitivni testi,

·        ekspertno ocenjevanje,

·        anketiranje testne skupine, ki izvajajo določene naloge, o katerih sprotno odgovarjajo na pismeno anketo,

·        on-line ankete, kjer se na testnih straneh izvajajo in simultano ocenijo naloge,

·        on-line ankete na sami spletni predstavitvi,

·        on-line ankete na izhodu, npr. po nakupu,

·        on-line ankete med vsemi spletnimi uporabniki,

·        priklic v klasičnih telefonskih/osebnih/poštnih anketah,

·        s plačanimi obiskovalci v smislu »mistery shopping«.

2. ANALIZE UPORABNOSTI V OKVIRU PROJEKTA RIS

V nadaljevanju si bomo ogledali nekaj izkušenj s tovrstnimi merjenji v okviru projekta RIS[2] in ilustrirali metodološke probleme, ki pri tem nastajajo.

2.1  Standardizirano opazovanje

V letu 1998 je bilo izvedeno standardizirano kodiranje lastnosti spletnih predstavitev za reprezentativni vzorec slovenskih podjetij (Analiza Web strani, 1998). Analizirano je bilo število nivojev navigacije, jezik, ipd. Med drugim se je izkazalo, da je npr. pri večini podjetij na prvi strani težko – ali pa sploh nemogoče - najti email naslov.

2.2  Log analiza

V letu 2000 je bila izvedena obsežna log analiza najbolj obiskanih predstavitev z namenom analize obiskanost. Hkrati je bila opravljena tudi podrobna analiza razmerij med posameznimi kategorijami obiskanosti, s čimer se dobi vpogled v gibanje obiskovalcev. Izkaže se, da pri večini predstavitev obiskovalci izredno pogosto ogledujejo le prvo stran, delež ponavljajočih obiskovalcev pa je izredno raznolik.

2.3  Kvalitativne analize

V letu 2001 so bile izvedene focus skupine za analizo uporabnosti spletne predstavitve FDV. Sodelujoči študentje so bili izjemno kritični in neprizanesljivi. Razprava je – bistveno bolj kot anketa - omogočila vpogled v vse pomanjkljivosti. Dodati velja, da je bila analiza opravljena v jeseni 2000, spletna stran FDV pa je bila med tem že prenovljena. Celotno poročilo je na voljo na Internetu (Mervar & al., 2001).

2.4  Testne naloge uporabnosti

Kritično uporabnost spletne predstavitve FDV je potrdilo tudi izvajanje testnih nalog. Tako so študentje za iskanje elementarnih informacij (npr. razpored predavanj določenega predmeta, pogoje za vpis v tretji letnik) porabili veliko časa ali pa informacij sploh niso našli.

2.5  Pisemske ankete 

Omenjene focus skupine in testne naloge v primeru FDV kažejo bistveno slabše rezultate, kot pa so bili rezultati skupine, ki je odgovarjala samo na pisemsko anketo. S priklicem so npr. na skali 1-5 navigacijo ocenili z oceno 3.6, kar je – kot bomo videli –  primerljivo s siceršnjimi ocenami spletnih predstavitev med reprezentativnimi anketami. Na osnovi ankete torej v primeru FDV sploh ni videti, da je bilo navigacijo kaj posebej narobe.

3. STANDARDIZIRANA ANALIZA UPORABNOSTI

Zgornji pristopi med seboj niso primerljivi  niti ne omogočajo primerjave med predstavitvami. V nadaljevanju zato prikazujemo vzpostavljanje standardiziranega kazalca uporabnosti. S standardizacijo mislimo oblikovanje tipskih vprašanj, s katerimi se v reprezentativnih anketah ocenijo spletne predstavitve. Gre torej za ne-eksperimentalne raziskave na vzorcu uporabnikov, ki temeljijo na priklicu. V nadaljevanju se omejujemo le na analizo vprašanja o navigaciji, ki je bilo postavljeno na lestvici 1-5:

»V celoti gledano, kako ocenjujete navigacijo in orientacijo spletne predstavitve (kako dobro se znajdete oziroma kako hitro najdete določeno informacijo)«

Poleg same navigacije so ankete ocenjevale tudi všečnost, hitrost nalaganja in kvaliteto vsebine oziroma informacij. V posebnih primerih (npr. portali, iskalniki, imeniki) so bili vključeni še drugi elementi (kvaliteta iskalnika, zanimivost/zabavnost/kratkočasnosti ipd).

3.1 Način anketiranja in kontrolne spremenljivke

V spletni anketi je konec leta 2000 sodelovalo prek 600 respondentov, od tega jih je 460 anketo v celoti izpolnilo (Koren et al., 2001). Respondenti so ocenjevali štiri slovenske on-line dnevnike: Finance, Delo, Dnevnik, Večer, vendar le tiste, ki jih obiskujejo vsaj mesečno.

V istem času je telefonska anketa dala drugačen rezultat, posebej za Večer 4.0 in Finance 3.5, kar so statistično značilne razlike. Ocenjevanje povprečij npr. pri n=100, ima namreč običajni (95%) interval zaupanja širok samo ± 0.2.

 

SPLETNA ANKETA

TELEFONSKA ANKETA

Finance

3,7

3,5

Dnevnik

3,5

3,8

Večer

3,3

4,0

Delo

3,1

3,6

Tabela 1: Povprečna ocena zadovoljstvo z orientacijo in navigacijo (na skali 1-5) za štiri
on-line dnevnike v spletni (n=460) in telefonski (n=404) anketi, Januar, 2001

V obeh primerih smo obravnavali pogoste obiskovalce navedenih predstavitev, zato so razlike videti presenetljive. Vzroki za razlike izhajajo iz:

-         različnih struktur respondentov v anketah (npr. Web – mlajši, računalniško orientirani),

-         različna struktura bralcev posameznih dnevnikov (npr. Delo – starejši, izobraženi),

-         učinek načina anketiranja (mode effect).

V splošnem so namreč moški bolj kritični od žensk, starejši bolj od mlajših, izobraženi bolj od manj izobraženih. Vse to generira številne posredne vplive. Spletni časopis s starejšim, bolj izobraženim avditorijem, kjer je več moških, bo zato prejel nižjo oceno samo zaradi svoje strukture obiskovalcev. Podobno bo način anketiranja, ki pritegne tako strukturo respondentov, dal nižje ocene. Seveda pa nastopajo tudi drugi faktorji kot je pogostost obiskovanja, lojalnost predstavitvi in računalniška orientiranost. V primeru Večera pa je na rezultate vplival tudi sam profil predstavitve (ki presega koncept on-line dnevnika), pa tudi ekstremne ocene drugih komponent (npr. všečnost, hitrost).

Nenazadnje, določene razlike vsekakor nastajajo tudi zaradi različno učinkovite navigacije na samih predstavitvah, čeprav se to prepleta tudi z všečnostjo, hitrostjo kvaliteto informacij

Očitno pa je, da lahko rezultate korektno primerjamo samo znotraj enakih segmentov uporabnikov in še to samo za predstavitve znotraj določenega področja.

V navedenem primeru on-line dnevnikov pa je nadvse poučno tudi ekspertno ocenjevanja samih založniških hiš, kjer so njihovi sodelavci oziroma avtorji ocenjevali vse štiri obravnavane predstavitve. Rezultati omenjene študije so na spletu (Koren et al., 2001).

Tudi tu velja dodati, da je bila analiza opravljena jeseni 2000; med tem – do maja 2001 - je bila predstavitev Dnevnika prenovljena, vendar pa je bila tudi telefonska anketa izvedena še pred njeno prenovo.

3.2  Postavitev vprašanj

Primer on-line dnevnikov je bil posebej težaven, ker se mešajo učinki načina anketiranja (mode effect) in učinki strukture obiskovalcev. Učinek struktur oziroma skritih kontrolnih spremenljivk je poučen tudi v primeru predstavitev mobilne telefonije. Tako je npr. Mobitelova predstavitev v pogledu navigacije videti bolje ocenjena od Simobilove. Vendar: uporabniki Simobilovih mobilnih telefonov višje ocenjujejo svojo (Simobilovo) predstavitev kot pa uporabniki Mobitela ocenjujejo Mobitelovo. Toda: uporabniki Simobila višje ocenjujejo Mobitelovo predstavitev kot Simobilovo. S tem pa še nismo pri koncu, saj  sploh  nismo upoštevali vpliva starosti, izobrazbe in spola. Čeprav je videti, da lahko skoraj poljubno generiramo ključne ugotovitve[3], pa seveda obstaja neko končno spoznanje, ki nam ga omogočajo določeni podatki po tem, ko opravimo vse potrebne analize po segmentih in postavimo določen model. Pri tem je glavna omejitev seveda velikost vzorca – mnoge razlike namreč niso statistično značilne.

Oglejmo si še vpliv oblikovanja vprašanj. V telefonski anketi je bil tokrat opravljen poskus (eksperiment):

-         v primeru A so respondenti odgovarjali na vprašanje, kako ocenjujejo navigacijo (nato pa še všečnost, hitrost, vsebino) predstavitve Mobitel, nakar se je isto vprašanje postavilo še za ostale tri predstavitve,

-         v primeru B pa so respondenti ocenjevali vsako komponento posebej za vse štiri predstavitve, to je navigacijo za Mobitel (nato pa še za Simobil, Debitel, Mobisux), nakar so ocenili še ostale komponente

 

A

B

 

Ocenjevanje

posamezne predstavitve

po štirih komponentah

Ocenjevanje

posamezne komponente

po štirih predstavitvah

Mobitel

3,7

3,9

Simobil

3,6

3,8

Debitel

3,6

3,7

Mobisux

4,0

3,9

Tabela 2: Povprečna ocena zadovoljstva z orientacijo in navigacijo (na skali 1-5) za štiri on- line dnevnike v telefonski anketi (n=726), glede na način postavljanja vprašanj, januar, 2001

Razlike med načinoma v zgornjem primeru niso statistično značilne – so pa seveda značilne nekatere razlike med predstavitvami - dobro pa ilustrirajo občutljivost rezultatov na vprašanja. Podoben učinek pa ima lahko tudi vrstni red vprašanj – v zgornjem primeru rotacija vprašanja sicer ni bila uporabljena. Mogoče je celo, da je visoka ocena za Mobisux učinek vrstnega reda, vendar pa razpoložljiva analiza tega ne potrjuje (samo 16 respondentov od 726 namreč mesečno obiskuje – in je ocenjevalo - vse štiri predstavitve).

3.3  Uporabnost in obiskanost

Če za zgornje predstavitve upoštevamo navedene ocene za uporabnost/navigacijo, za obiskanost pa siceršnje podatke RIS o mesečnem dosegu, dobimo korelacijski koeficient R=0,10 kar se bistveno ne spremeni tudi, če dodamo še ostale predstavitve, ki so bile vključene v standardizirano ocenjevanje spletne uporabnosti: Abanka, NLB, NKBM, Yahoo, Matkurja, Najdi, Siol.net, ZZZS, Zavod za zaposlovanje, Eon, Urad Vlade za informiranje, E-uporaba, Center Vlade za informatiko, Mercator, Svet-glasbe, eMKa, Big-bang.

Seveda pa nizke ali visoke korelacije ni mogoče interpretirati v smislu vzročnosti. Šele podroben (npr. Lisrel) model, ki bi vključeval vse relevantne druge dejavnike, bi lahko pokazal neposreden vpliv uporabnosti na obiskanost. V podobni dilemi, ali npr. zaskrbljenost za varovanje zasebnosti vpliva na e-nakupovanje ali pa je obratno - da poznavanje in izkušnje manjšajo zaskrbljenost – je namreč šele podroben vzročni model pokazal, da tudi večji obseg nakupovanja povečuje tovrstno zaskrbljenost (Kovačič, Vehovar, 2001).

Dodajmo, da smo v ne-eksperimentalnem raziskovanju poleg drugih nevarnosti soočeni tudi s problemom, da uporabniki predstavitve, ki jim ne ustrezajo, ne obiskujejo več in je zato sploh ne morejo oceniti.

Omeniti velja, da je vzročno povezavo med obiskanostjo in uporabnostjo/strukturo spletne predstavitve mogoče proučevati tudi s tako-imenovanimi modeli produktivnosti spletnih predstavitev (Bauer, 1999).

4. SKLEP

V marketinškem raziskovanju se uporabniki pogosto pritožujejo, da dajejo raziskave različne rezultate. Po eni strani so lahko taka razhajanja posledica nizkih standardov empiričnega raziskovanja (npr. kvotni vzorci, visoke stopnje neodgovorov, ipd). Spremenljivke na področju marketinga in javnega mnenja so namreč robustne za številne poenostavitve, zato cenovna konkurenca zlahka niža metodološke standarde.

Po drugi strani – in tako je tudi v obravnavanem primeru - gre pogosto za dejstvo, da je realnost večplastna, zato različni instrumenti kažejo različne vidike, ki med seboj niso v neposrednem nasprotju, čeprav tudi niso neposredno primerljivi.

Standardizirane ankete na reprezentativnih telefonskih vzorcih uporabnikov omogočajo bistveno večjo primerljivost ocenjevanja uporabnosti kot pa kvalitativne raziskave in testiranja uporabnosti, V splošnem dajejo tudi višje ocene. Seveda je pri tem potrebno upoštevati metodološke omejitve, kot npr. dejstvo, da ocenjevanje temelji na priklicu. Posebna pozornost je potrebna pri spletnih anketah, ki so sicer nadvse informativne, vendar tudi nadvse specifične.

Osrednji problem tovrstnega pristopa izhaja iz dejstva, da gre za ne-eksperimentalno raziskovanje, zato je primerljivost mogoča šele z analizo standardiziranih segmentov uporabnikov. Pri tem je potrebno, poleg siceršnjih socio-demografskih spremenljivk, vključiti tudi računalniško orientiranost, pogostost uporabe Interneta in vidike lojalnosti blagovni znamki. Vse to pa, žal, zahteva razmeroma velike vzorce.

Standardizirano ocenjevanje uporabnosti nikakor ne more nadomestiti testiranja uporabnosti in kvalitativnih analiz. Predstavlja pa najbolj obetaven način vzpostavljanja primerljivih rezultatov, kar lahko pomembno pripomore k osvetlitvi praktičnih vprašanj, npr. zakaj nima Siol.net več obiskovalcev, ali ima npr. predstavitev Mobitel.si težave z navigacijo, ali je predstavitev Mercator.si za uporabnike prijetna, in nenazadnje, v čem je skrivnost visoke obiskanosti Matkurje.


LITERATURA IN VIRI

1) Alpar, P., Porembski, M., Pickerodt, V. (1999). Measurement of Productivity of Web Sites. The International Conference on Measurement of Electronic Commerce, Singapore 1999. http://www.singstat.gov.sg/EC/echome.html.

2) Analiza Web strani (1998). Http://www.ris.org/si/ris99/stranipodjetij.html .

3) Koren G., Mak, J., Nedog, T., Turel, V., Zupančič, E., Weingerl, M. (2001): Primerjava uporabnosti spletnih časopisov: Delo, Dnevnik, Večer, Finance. FDV. http://www.ris.org.

4) Kovačič, M., Vehovar, V. (2001): Privacy concerns and usage of e-services. Euricom Colloquium: Electronic Networks and Democratic Life. 19-23 September 2001.

5) Mervar, D., Pavlica, M., Petrović, S., Pirc, H., Pirc, I, Trop, K.(2001): Usablity FDV spletnih strani. FDV. http://www.ris.org.

6) Niederst, J., Koman, R. (1998). Web Design in a Nutshell : A Desktop Quick Reference. O'Reilly.

7) RIS (2001). http://www.ris.org.

8) Shneiderman, B. (1987). Designing the User Interface. Adison Wensley.

9) The Jakob Nielsen Drinking Game (2001).   

http://www.rc3.org/clips/nielsen_drinking_game.html.

10) Usable Web (2001). http://www.usableweb.com/ .

11)) Useit.com: Jakob Nielsen's Website (2001). http://www.useit.com/ .



[1] Pojma spletna predstavitev (web-site) oziroma predstavitev (site) imata lahko širši pomen kot domača stran (home page) ali predstavitvena stran (web page), čeprav gre pogosto za sinonime. Izraz spletna stran (web-page) pa označuje posamično stran s samostojnim URL naslovom.

[2] Projekt RIS, Raba Interneta v Sloveniji, je neprofitna raziskava, ki poteka na Fakulteti za družbene vede od leta 1996; rezultati so javni na http://www.ris.org.

[3]»If you torture your data long enough they will confess«


zabriše [IQ1]