Visuaalinen haku ja kontekstin oppiminen

Tutkimusryhmässämme on tällä hetkelle meneillään Suomen Akatemian rahoittama projekti ”Mieli, Kuva, Mielikuva”, jota teemme yhteistyössä Tampereen yliopiston Journalismin, viestinnän ja median tutkimuskeskuksen ja Visual Interaction Research Groupin kanssa. Projektin tarkoituksena on selvittää, minkälaisia kognitiivisia prosesseja liittyy kuvien merkityksen havaitsemiseen. Olemme suunnitelleet koeasetelmaa, jossa koehenkilöt tarkastelevat valokuvia suorittaen kuvien luokittelutehtävää. Ideana on se, että luokittelutehtävä vaikuttaa ihmisten silmänliikkeiden suuntautumiseen ja toisaalta kertovat siitä, kuinka ihmiset hahmottavat kuvan merkityksen.

Kokeen perusajatus tulee vuosikymmenien takaa, jo Buswell (1935) ja Yarbus (1967) huomasivat, että tehtävä vaikuttaa henkilön informaatiotarpeisiin, mikä taas vaikuttaa silmien kohdistumiseen. Alfred Yarbusin kokeessa koehenkilöt katsoivat Ilja Repinin maalausta ”Odottamaton kotiinpaluu” samalla kuin heidän silmänliikkeitään mitattiin. Repinin maalaus oli poliittisesti merkittävä teos Neuvostoliitossa, joten sen valinta koeärsykkeeksi ei ollut sattumaa. Maalauksessa Siperiaan karkotettuna ollut vallankumouksellinen palaa kotiin ja hänen perheensä tarkastelee tätä yllättyneenä.

Ilja Repin: Odottamaton kotiinpaluu

Kun koehenkilöt katsoivat kuvaa vapaasti ilman ohjeistusta, silmät kohdistuivat eri puolille kuvaa, mutta eivät suinkaan satunnaisesti vaan ihmisten kasvoihin ja tiettyihin esineisiin kohdistuen. Alla olevassa kuvassa valkoiset viivat kuvaavat katsepolkua, jossa katse siirtyy nopeasti paikasta toiseen ja pysähtyy välillä.

yarbus1

Silmänliikkeet kuvan vapaassa katselussa. (http://www.cabinetmagazine.org/issues/30/archibald.php)

Tämän jälkeen koehenkilöt katsoivat kuvaa uudestaan ja heille annettiin erilaisia tehtäviä. Tehtävät olivat: 1. Arvioi perheen varallisuutta, 2. Arvioi henkilöiden ikä, 3. Mitä henkilöt oliva tehneet ennen vieralijan saapumista, 4. Paina mieleesi minkälaiset vaatteet henkilöillä on, ja 5. Arvioi, kuinka kauan vierailija on ollut poissa. Yarbus havaitsi, että katsepolut riippuivat annetusta tehtävästä. Jos koehenkilöt esimerkiksi arvioivat henkilöiden ikää, suurempi osa silmänliikkeistä kohdistui henkilöiden kasvoihin.

yarbus3

Silmien katsepolut kun tehtävänä on arvioida henkilöiden ikää.

Akatemiprojektissamme olemme samanlaisten ilmiöiden äärellä, mutta tutkimme kuvan tulkintaan liittyviä kultuurisia tekijöitä ja sitä, eli kuinka henkilön tulkinta kuvasta vaikuttaa siihen, mitä tietoa hän alkaa kuvasta poimimaan.

Olen nyt suunnitellut projektiin liittyvää koeasetelmaa, eli miettinyt kuvien esittämisjärjestyksiä ja koehenkilöille annettavia ohjeita. Eräs tärkeä kysymys liittyy kontrollikokeeseen. Jotta silmänliiketuloksia olisi mahdollista tulkita, käytetään kontrollikoetta, johon varsinaiseen kokeen tuloksia vertaillaan. Usein käytetään muistitehtävää, eli koehenkilöitä pyydetään katselemaan samoja kuvia ja heille kerrotaan, että kuvasarjan lopuksi heiltä kysytään kuvia koskevia kysymyksiä. Koska mieleen painamiseen käytetyistä silmänliikkeistä tiedetään paljon, on tämä tehtävä eräänlainen standardoitu kontrollikoe. Koeasetelmaa vertailemalla voidaan sitten tehdä päätelmiä sen perusteella, mitkä asiat silmänliikkeissä ovat erilaisia koetehtävän ja muistitehtävän välillä.

Koska silmänliikkeissä on paljon yksilöllistä vaihtelua, kannattaa samojen koehenkilöiden tehdä tehtävä kahteen kertaan. Tehtävien järjestys kannattaa satunnaistaa, eli puolet koehenkilöistä tekee varsinaisen koetehtävän ensin ja toinen puoli koehenkilöistä tekee kontrollikokeen ensin. Näin varmistutaan siitä, että tulokset eivät riipu kuvien näkemisestä toiseen kertaan. Tämä on kokeellisen psykologian perussääntöjä, mutta aloin miettiä, miksi kuvien näyttäminen kahteen kertaan oikeastaan muuttaa kognitiivista prosessointia , visuaalista tarkkaavaisuutta ja silmänliikkeiden ohjausta. Jonkinlaista oppimistahan tuossa tapahtuu, koska kuvien sisältö ja rakenne ovat tulleet tutuksi, mutta halusin selvittää, mitä tutkimuskirjallisuus tästä tarkalleen ottaen kertoo.

Eräs paljon siteerattu lähde on Chunin ja Jiangin artikkeli vuodelta 1998, jossa he tutkivat oppimisen vaikutusta visuaaliseen tarkkaavaisuuteen erittäin nokkelalla kokeella. Chun ja Jiang lähtevät liikkeelle tarkkaavaisuuden perusluonteesta, eli valikoivuudesta. Koska informaatiotulva on niin voimakas, täytyy näköjärjestelmän valikoida sieltä olennaisin tieto. Eräs tapa tehdä valikointia on kohdistaa tarkkaavaisuus paikkoihin, joissa olennainen tieto on todennäköisimmin tarjolla. Tästä on kyse Yarbusinkin kokeissa: kun koehenkilö saa tehtävän, hän kohdistaa silmänliikkeet alueille, joista tehtävän kannalta olennainen tieto on tarjolla.

Valikoivuus ilmeisesti kehittyy myös yleisemmällä tasolla eli suhteessa maailmassa oleviin systemaattisiin rakenteisiin, joita havaintomaailmassamme on paljon: pilvet ovat useimmiten taivaalla, mutta autot harvemmin leijuvat ilmassa. Puut kasvavat maasta kohti taivasta ja vailla alapuolella olevaa pintaa olevat esineet putoavat kunnes kohtaavat pinnan. Näköjärjestelmän tavat hyödyntää havaintomaailman systemaattisia piirteitä innoittivat 1970- ja 1980-luvulla klassisia kokeita, jotka osoittivat, että suoriutuminen tehtävissä on parempaa, jos kuvat ovat arkipäivän havaintomaailman kaltaisia.

Eräs näistä klassikkokokeista on Irwin Biedermanin vuonna 1972 Science-lehdessä julkaistu tutkimus, jossa koehenkilöiden piti tunnistaa valokuvista esineitä (Tuolloin kognitiivista psykologiaa vielä ilmestyi Science-lehdessä aika usein). Koehenkilöille esitettiin valokuva hyvin lyhyen aikaa, joko 300 ms, 500 ms tai 700 ms. Kuvat näytettiin dioina takistoskoopilla (Benschop, 2008), koska tietokoneet eivät vielä olleet riittävän tehokkaita tai yleisiä näihin kokeisiin. Valokuvan jälkeen takistoskooppi näytti nuolen, joka osoitti jotakin kohtaa näkökentässä. Koehenkilöiden piti muistaa, mitä nuolen kohdalla kuvassa oli ollut. Nuoli saattoi osoittaa esimerkiksi kohtaan, jossa kuvassa oli ollut polkupyörä. Kokeen toisessa versiossa koehenkilöille esitettiin sama kuva, mutta sekoitettuna kuten alla olevan kuvan oikeanpuoleisessa versiossa. Kuvassa olleet esineet olivat samoja, mutta tässä versiossa ne eivät sijoittuneet normaalin havaintomaailman kaltaiseen rakenteeseen. Kun näköjärjestelmä ei näe esineitä rakenteeltaan tyypillisessä kontekstissa, esineiden tunnistustarkkuus oli alhaisempi. Koe siis kertoo, että näköjärjestelmä hyödyntää tietoa havaintomaailman tyypillisestä rakenteesta.

Biederman 1972

Esimerkkejä Biedermanin käyttämistä kuvista. Vasemmalla on tavallinen valokuva, oikealla siitä tehty mosaiikki, jossa kuvan palojen järjestys on sotkettu.

Biederman teki samasta teemasta tutkimuksia, joissa esineiden sijaintia vaihdeltiin systemaattisesti. Jos esimerkiksi sohva leijui kuvassa taivaalla, se löydettiin hitaammin ja epätarkemmin kuin jos se oli maassa (Biederman 1982).

Biederman 1982

Esimerkki Biedermanim myöhemmissä kokeissaan käyttämistä koeärsykkeistä, joissa esineiden paikkaa kuvissa vaihdeltiin systemaattisesti.

Noissa kokeissa siis osoitettiin, että maailman rakennetta koskevat olettamukset vaikuttavat siihen, mihin katseemme kohdistamme. Chun ja Jiang halusivat selvittää, kuinka tällaiset oppimismekanismit toimivat ja tehdä asiasta kontrolloidumman koeasetelman. He toteavat artikkelinsa johdannossa, että varhaisia koetuloksia on vaikea tulkita, koska ne on tehty valokuvilla ja piirroksilla: ”These empirical demonstrations employed natural scenes which tap into rich background knowledge and extensive visual experience of observers. But these important variables are difficult to control in the lab, delaying progress for resolving how visual context can be defined, how it influences visual processing, and how contextual knowledge is acquirted and represented.”

Näiden kohteliaiden muotoilujen jälkeen he suosittelevat, että ilmiötä pitäisi tutkia kontrolloiduilla ja semantiikasta vapailla kuvilla. Tämä on hupaisa esimerkki tieteen muoti-ilmiöistä, koska nyt, siis viisitoista vuotta Chunin ja Jiangin artikkelin jälkeen, koeasetelmat ovat taas siirtyneet käyttämään 1970-luvulla paljon käytettyjä valokuvia. Muutama viikko sitten luin jopa Psychological Science-lehdestä artikkelin johtopäätösosuudessa pitkän selvityksen siitä, miksi kyseisessä artikkelissa oli päätetty käyttää keinotekoisia kuvia valokuvien sijaan, vaikka kaikki hyvin tietävät, että yksinkertaistetuilla kuvilla saadut tulokset eivät välttämättä yleisty koelaboratorion ulkopuolelle. No, Chun ja Jiang päätyivät kuitenkin käyttämään aika yksinkertaisia ärsykkeitä eli geometrisista kuvioista muodostettuja kirjaimia. Koehenkilöiden piti etsiä T-kirjain ja kertoa, oliko se 90 astetta kääntynyt oikealla vai vasemmalle. Tehtävästä oli tehty mahdollisimman hankala sijoittamalla T eri väristen L-kirjainten sekaan. Koehenkilölle näytettiin kuva 720 kertaa ja joka kerralla kirjainten sijainnit ja värit vaihtelivat. Tehtävä osoittautui koehenkilöille hankalaksi, keskimääräinen reaktioaika oli hiukan alle sekunnin.

Chun ja Jiang 1998-01

Chunin ja Jiangin käyttämä koeärsyke.

Chun ja Jiang olivat piilottaneet kokeeseen ovelan piirteen, jolla oppimista tutkittiin. Koe oli jaettu 24 kuvan blokkeihin, joita oli 30 kappaletta. Yhteenlaskettu kuvien määrä oli siis 720 kappaletta. Kunkin blokin alussa tuotettiin uudet kuvat, joissa T- ja L-kirjainten värit, sijainnit ja kallistuneisuudet vaihtelivat satunnaisesti. Oppimisvaikutuksen selvittämiseksi uusia kuvia oli vain 12 kappaletta ja 12 kuvaa säilyi koko kokeen ajan samanlaisina. Kokeen loppuun mennessä koehenkilöt olivat siis nähneet puolet kuvista 30 kertaa.

Tulokset osoittivat, että hakunopeus parani toistuvissa kuvissa kokeen edetessä. Kokeen loppupuolella reaktionopeus toistuville kuville oli parantunut noin 80 millisekuntia verrattuna uusiin kuviin. Oppiminen oli tiedostamatonta, sillä suurin osa koehenkilöistä ei  huomannut, että kokeessa oli toistuvia kuvia.

Chun ja Jiang nimesivät kokeessa tapahtuvan ilmiön kontekstuaaliseksi hauksi, jossa henkilö oppii kohdeärsykkeen paikan kuvan kokonaisuuden sommitelmassa. Heidän mukaan oppiminen tapahtuu implisiittisesti, eli ilman tietoista kokemusta toistosta ja ilman pyrkimystä oppia kohdeärsykkeiden paikkoja. Näköjärjestelmä siis tehostaa informaation hakua automaattisesti näkymien rakenteissa olevan systematiikan perusteella.

Kuten aikaisemmin mainitsin, näkötutkimuksessa on muotivirtauksia. Eräs muotivirtaus on kokeissa käytettävien kuvien tyyppi. Chunin ja Jiangin artikkelin aikaan tutkijat suosivat yksinkertaisia geometrisia kuvia, joiden piirteet on helppo kontrolloida. Nykyisin taas muodissa ovat mahdollisimman luonnolliset kuvat eli yleensä valokuvat näkymistä. Muodin vaihtuminen näkyy hyvin James Brockmolen ja John Hendersonin (2006) artikkelissa, jossa he tutkivat konstektuaalista hakua. Artikkelin johdannossa Brockmole ja Henderson toteavat: ”Although Chun and colleagues acknowledge that the stimuli used in their experiments lack the realism of a natural scene, they argue that their stimulus arrays neverthless contain the kind of structure available in real-world environments.” Näin muuttuvat argumentit, vuosikymmenessä koeasetelman vahvuus muuttuukin sen heikkoudeksi.

Brockmole ja Henderson käyttivät aikaisemman kokeen keinotekoista koeärsykettä lähtökohtana ja toistivat kokeen valokuvilla. Tehtävä oli sama eli koehenkilöiden piti etsiä T-kirjaimia näkymästä ja valita, ovatko ne oikealle vai vasemmalle kallellaan. T-kirjaimet oli satunnaisesti sijoitettu valokuviin ja Chunin ja Jiangin kokeen tapaan osa näkymistä toistui. Kontekstuaalisen haun ilmiö löytyi myös tässä koeversiossa ja se oli voimakkaampi kuin Chunin ja Jiangin kokeessa. Alussa koehenkilöiltä kului keskimäärin neljä sekuntia T-kirjaimen löytämiseen ja päätöksen tekemiseen, mutta lopussa keskimääräinen reaktionopeus oli vähän yli sekunnin.

Toisin kuin Chunin ja Jiangin kokessa, tässä tapauksessa koehenkilöt muistivat, mitkä kuvat kokeessa olivat toistuneet. Tämä on ymmärrettävää, koska valokuvissa on enemmän semanttisia vihjeitä kuin Chunin ja Juangin kirjainmatriiseissa. Mielenkiintoista oli se, että koehenkilöt muistivat myös hyvin, missä kohtaa toistunutta valokuvaa T-kirjain oli ollut. Valokuvan sisältämät semanttiset ja rakenteelliset vihjeet toimivat siis hyödyllisenä muistivihjeenä.

Kuvien useamman esityskerran vaikutus näyttää aikaisemman kirjallisuuden perusteella ilmiöltä, jossa tehtävän suoritus helpottuu toistojen määrän kasvaessa. Ilmiö näyttää myös toimivan voimakkaammin kuvilla, joissa on selkeä semanttinen sisältö. Eräs kysymys jäi kuitenkin näiden artikkelien pohjalta ratkaisematta, sillä näissä kokeissa koehenkilöt suorittivat aina samaa tehtävää. Entäpä jos kuvat ovat samat, mutta tehtävä erilainen? Ilmeneekö kontekstin oppiminen tässäkin tapauksessa? En heti löytänyt asiaa koskevia tutkimuksia, mutta tämä tarjoaisi mielenkiintoisen menetelmän kahden eri tehtävän vertailuun. Jos koehenkilöt tekevät kahta eri tehtävää ja kontekstuaalista oppimista tapahtuu, tarkoittaa se sitä, että kahdessa tehtävässä käytetään samaa näkymäinformaatiota. Tästähän saisi aika näppärän koeasetelman.

Lähteet

Benschop, R. (2008). What Is a Tachistoscope? Historical Explorations of an Instrument. Science in Context 11, 23–50.

Brockmole, J. & Henderson, J.M. (2006) Using real-world scenes as contextual cues for search. Visual Cognition 13, 99-108.

Buswell, G.T. (1935) How people look at pictures: a study of the perception in art. Chicago: University of Chicago Press.

Chun, M. M., & Jiang, Y. (1998). Contextual cueing: implicit learning and memory of visual context guides spatial attention. Cognitive Psychology 36, 28–71.

Yarbus, A.L. (1967) Eye movements and vision (trans. B.Haigh). New York: Plenum Press.

Tietoja jukkahakkinen

Työskentelen Käyttäytymistieteiden laitoksella, Helsingin yliopistossa. Tässä blogissa käsittelen havaitsemiseen liittyviä teemoja perustutkimuksesta visuaaliseen ergonomiaan.
Kategoria(t): havaitseminen, näkymien havaitseminen, neurotiede, oppiminen, psykologia, silmänliikkeet, taide, tarkkaavaisuus, visualinen haku Avainsana(t): , , , , . Lisää kestolinkki kirjanmerkkeihisi.

5 vastausta artikkeliin: Visuaalinen haku ja kontekstin oppiminen

 1. Olin joskus opiskelijana koe-eläimenä jossain tämän tyyppisessä kokeessa. Piti tuijotella maalausta ja luetella värejä. Ilmeisesti kuitenkin tarkkailtiin silmien liikettä. Mietin koko ajan, että mikä koira tähän on haudattuna ja varmaan tämä metapohdiskelu teki minusta huonon testihenkilön. Siitä jäi minulle lievä morkkis.

  • jukkahakkinen sanoo:

   Kuulostaa tosiaan tällaiselta kokeelta. Jos koe on hyvin suunniteltu, niin ei tuo metapohdiskelu välttämättä tuhoa tulosta. Ellei sitten pohdi todella ankarasti 🙂

   • Minä kyllä pohdin ankarasti. Tiesin, että kuitenkin hakevat jotain muuta kuin ohjeissa antavat ymmärtää. Koetin olla fiksumpi ja nähdä sen ennakkoon.

   • jukkahakkinen sanoo:

    Noinhan se menee. Tuo on näiden kokeiden suunnittelun haastavin juttu: kuinka peittää kokeen hypoteesi niin hyvin, että se helposti selviä koehenkilöille. Joissain kokeissa se onnistuu helpostikin, koska voi laskea erilaisten vastausten suhteita, jolloin koehenkilön strategiat ja kriteerit voi sulkea pois, mutta esim silmänliikekokeissa voi olla aika hankalaa.

   • jukkahakkinen sanoo:

    Ettei se helposti selviä piti sanomani

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s