Näköjärjestelmä analysoi näkymän erilaisia piirteitä, kuten värejä ja ääriviivoja, rinnakkaisesti ja hierarkkisesti. Rinnakkaisuus tarkoittaa sitä, että eri näkymän piirteitä käsitellään näön tietojenkäsittelyssä samanaikaisesti eri paikoissa. Hierarkkisuus taas tarkoittaa sitä, että tietojenkäsittely etenee yksinkertaisemmista piirteistä monimutkaisempiin eli ensin kuvasta hahmotetaan ääriviivat ja värit, sitten pinnat, sitten esineet ja lopuksi esineet tunnistetaan tietyksi esineeksi eli niiden merkitys avautuu. Jos vaikka katsomme nurmikolla olevaa jalkapalloa, niin ensiksi se on väin ääriviivojen joukko, joka hahmottuu ympyräksi ja hetken kuluttua pallomaiseksi objektiksi. Pian sen jälkeen havaitsijalle valkenee, että se on jalkapallo ja vielä se, että kyseessä on oma tuttu jalkapallo lapsuudesta. Yksinkertaisista piirteistä abstraktimpiin kuvan ominaisuuksiin etenevä kuvan hahmottaminen on yleisenä taustaolettamuksena havaitsemisen tutkimuksessa. Näkemyksen tunnetuin edustaja on David Marr, jonka vuonna 1982 julkaistu kirja ”Vision” on alan klassikko.
Jo varhain jotkut tutkijat saivat kuitenkin kummallisia tuloksia, jotka poikkesivat tästä ideasta. Jos henkilöille esitetiin kuvia hyvin lyhytaikaisesti, yhden silmäyksen ajan, he pystyivät usein hahmottamaan kuvan idean, siis esimerkiksi sen, että kyseessä on syntymäpäivät tai ruokakauppa (Potter, 1975; Friedman, 1979). Mary Potterin klassikkokokeessa koehenkilöille näytettiin diaprojektorilla kuvia hyvin nopealla tahdilla, kahdeksan kuvaa sekunnissa. Koehenkilöiden tehtävänä oli painaa nappia, kun tietty kohdekuva, vaikkapa kuva rannasta, ilmestyi. Kohdekuvaa ei näytetty ennakolta, vaan koehenkilölle vain kerrottiin sen aihe, esimerkiksi ”lapsi ja perhonen”. Henkilöt suorituivat tehtävästä erittäin hyvin ja pystyivät löytämään suurimman osan kohdekuvista. Näiden tulosten perusteella olisi mahdollista väittää, että ihmiset ymmärtävät kuvan merkityksen ennen kuin he hahmottavat kuvassa olevien kuvioiden ääriviivat ja muut peruspiirteet, mikä vaikuttaa aika omituiselta.
Vaikka Potterin ja myöhempien tutkijoiden tulokset olivat tiedossa, eivät ne saaneet aikaan suurtakaan muutosta tavassa, miten näköjärjestelmän toiminta hahmotettiin. Vasta 1990-luvulla Aude Oliva, Phillippe Schyns ja Michelle Greene ovat tehneet merkittäviä tutkimuksia alalla. Eräs tunnetuimmista artikkeleistä on Psychological Science-lehdessä ilmestynyt ”Briefest of glances”, jossa he selvittivät, kuinka nopeasti kuvan idean (englanniksi ”gist of an image”) pystyy havaitsemaan.
Kuvan semanttisen kategorian hahmottaminen
Aluksi kokeessa haluttiin selvittää, kuinka nopeasti henkilöt hahmottavat valokuvan aiheen eli sen semanttisen kategorian. Kokeessa käytettiin seitsemää eri aihetta: aavikko, pelto, metsä, järvi, vuori, meri ja joki. Jotta kokeeseen saataisiin hyvää kuvamateriaalia, tehtiin esikoe, jossa toinen ryhmä koehenkilöitä sai rauhassa arvioida 500 maisemavalokuvaa. Koehenkilöt katsoivat näitä kuvia yksi kerrallaan ja antoivat kullekin numeroarvon yhden ja viiden välillä riippuen siitä, kuinka tyypillinen kategoriansa edustaja kuva on. Jos kuvassa oli esimerkiksi metsä, koehenkilöt arvioivat, kuinka tyypillinen rantakuvien kategorian edustaja kyseinen kuva on. Varsinaiseen kokeeseen valittiin näistä esikokeen kuvista 25 korkeimman pistemäärän saanutta kuvaa, eli kaikkein tyypillisimmäksi oman kategoriansa kuviksi arvioituja kuvia. Kokeeseen otettiin lisäksi 25 muuta kyseisen kategorian edustajaa, joten kokonaisuudessaan koehenkilöille esitettiin 50 tietyn kategorian kuvaa.
Kokeessa koehenkilöille näytettiin kohdekuva erittäin lyhytaikaisesti, minkä jälkeen tuli ns. dynaaminen maski. Maski tarkoittaa kohdekuvan jälkeen tulevaa kuvaa, jonka tarkoituksena on pyyhkiä lyhytkestoiset muistipuskurit tyhjiksi, jotta koehenkilö ei suorittaisi koetta niihin jäävän tiedon avulla. Tällä tavalla siis varmistutaan siitä, että koehenkilöllä on saatavilla kuvaan liittyvää tietoa ainoastaan kuvan lyhyen esityksen aikana. Greene ja Oliva olivat koeasetelmassaan erityisen huolellisia, koska heillä kohdekuvan jälkeen tuli useita maskikuvia, kukin 20 millisekunnin esitysajalla (ks. kuva alla). Lisäksi maskiärsykkeet oli luotu niin, että ne vastasivat kohdeärsykkeiden tilastollisia ominaisuuksia.
Kokeessa koehenkilöiden tehtävänä oli kunkin kohdeärsykkeen kohdalla arvioida, kuuluuko kuva tiettyyn semanttiseen kategoriaan, eli esimerkiksi onko kuva vuoristokuva. Jotta tehtävä ei olisi liian helppo, koekuvien seassa oli 50 kuvaa, jotka olivat peräisin koeasetelman muista kategorioista. Kaiken kaikkiaan koehenkilö siis arvioi 100 kuvan semanttisen kategorian (50 kohdekuvaa ja 50 muuta kuvaa). Kuvasarjan ensimmäistä kuvaa näytettiin 50 millisekuntia, minkä jälkeen esitysaika alkoi muuttumaan vastausten mukaan. Jos vastaus oli oikein, tehtävää vaikeutettiin lyhentämällä esitysaikaa 30 millisekuntia. Jos vastaus oli kolme kertaa peräkkäin väärin, tehtävää helpotettiin pidentämällä esitysaikaa 10 millisekuntia. Tällä tavalla voitiin selvittää, mikä on lyhin esitysaika, jolla koehenkilö voi luotettavasti erottaa kuvan semanttisen kategorian. Kukin koehenkilö teki kokeen kaikilla seitsemällä eri kategorialla, yksi kategoria kerrallaan.
Kuvan globaalien piirteiden hahmottaminen
Kokeessa oli myös toinen osa, jossa koehenkilöiden tehtävänä oli selvittää kuvan globaaleja ominaisuuksia. Globaalit ominaisuudet voivat olla joko näkymän rakennepiirteitä tai näkymän funktionaalisia ominaisuuksia. Se mitä Greene ja Oliva kutsuvat kuvan funktionaalisiksi ominaisuuksiksi, ovat kuvan affordansseja eli tarjoumia. Tarjoumalla viitataan kuvan sisältämään tietoon näkymän tarjoamista toimintamahdollisuuksista, eli tässä tapauksessa kuvan esittämän näkymän helppokulkuisuus ja kuvassa olevien piilopaikkojen määrä.
Kuvan globaalit rakennepiirteet ovat puolestaan kuvaa luonnehtivia yleisiä ominaisuuksia:
- Luonnollisuus kertoo siitä, onko kuva luontonäkymästä vai kaupunkinäkymästä
- Etäisyys tarkoittaa sitä, onko kuva lähikuva vai kauempaa otettu kuva
- Avoimuus viittaa siihen, kuinka avoin tai sulkeutunut näkymä on. Jos näkymä on hyvin avoin, siinä näkyy horisontti eikä peittäviä objekteja. Jos näkymä ei ole avoin, sitä rajaavat esineet ja pinnat
- Pysyvyys kertoo siitä, kuinka nopeita muutoksia kuvassa olisi mahdollista tapahtua
- Lämpötila kertoo, onko valokuvan näkymässä kuuma vai kylmä
Globaaleja ominaisuuksia tutkittiin samalla tavalla kuin semanttisia kategorioitakin, eli koehenkilöiden piti päättää lyhyesti esitetystä kuvasta, oliko kuvassa kylmä vai kuuma. Kuvan esitysaikoja muutettiin oikeiden ja väärien vastausten perusteella samalla tavoin kuin edellisessäkin asetelmassa.
Tulokset
Tärkein tulos, joka kokeista saatiin, oli se, että kuvien semanttinen kategoria ja globaalit ominaisuudet hahmotettiin todella nopeasti! Semanttisten kategorioiden keskimääräiset tunnistusajat olivat kaikki alle 70 millisekuntia, mikä on hyvin lyhyt aika:
- Aavikko: 47 ms
- Pelto: 55 ms
- Metsä: 30 ms
- Järvi: 51 ms
- Vuori: 46 ms
- Meri: 55 ms
- Joki: 67 ms
Jos näitä tunnistusaikoja vertaillaan kuvien globaalien ominaisuuksien tunnistamiseen, paljastuu tuloksista mielenkiintoisia yksityiskohtia. Globaalien ominaisuuksien keskimääräiset tunnistusajat olivat:
- Piiloutumismahdollisuudet: 35 ms
- Helppokulkuisuus: 36 ms
- Luonnnollisuus: 19 ms
- Etäisyys: 26 ms
- Avoimuus: 47 ms
- Liike: 45 ms
- Lämpötila: 29 ms
Jos vertailet, kuinka lyhyellä esitysajalla henkilö pystyy näkemään kuvan semanttisen kategorian verrattuna kuvan globaaliin ominaisuuteen, huomaat, että suurin osa globaaleista ominaisuuksista hahmotetaan aikaisemmin! Eli henkilö pystyy arvioimaan aikaisemmin kuvan tarjoamat piiloutumismahdollisuudet (35 ms) kuin kertomaan, että kyse on vuoristomaisemasta (46 ms). Tai henkilö pystyy sanomaan aikaisemmin, että näkymä on luonnonmaisema (19 ms) kuin sen, että kyse on metsämaisemasta (30 ms).
Nämä ovat aika mielenkiintoisia tuloksia, koska ne viittaavat siihen, että näkymän tarjoumat ja tietyt rakennepiirteet hahmotetaan huippunopeasti ennen kuin muut kuvan ominaisuudet ehtivät selvitä. Selvästikin ominaisuuksien täytyy olla erityisen tärkeitä meille, koska ne priorisoidaan tällä tavalla.
Lähteet
Friedman, A. (1979). Framing pictures: the role of knowledge in automatized encoding and memory for gist. Journal of experimental psychology: General, 108, 316–355.
Greene, M. R., & Oliva, A. (2009). The Briefest of Glances: The Time Course of Natural Scene Understanding. Psychological Science, 20(4), 464–472.
Potter, M. C. (1975). Meaning in visual search. Science, 187, 965–966.
Oliva, A., & Schyns, P. G. (2000). Diagnostic colors mediate scene recognition. Cognitive psychology, 41(2), 176–210.
Paluuviite: Luento huippunopeasta havaitsemisesta | Signaali & Kohina