Kuinka kolmiulotteisia kasvoja katsotaan?

Olemme erikoistuneita kasvojen tunnistamiseen ja tarkkailuun, on nimittäin erittäin tärkeää tunnistaa tutut kasvot vieraiden joukosta ja lukea kasvoista tunnetiloja ja aikeita. Kasvojen avulla voimme tavallaan lukea toisten ajatuksia ja siten varautua paremmin muiden toimintaan. Toisaalta olemme myös aika hyviä peittämään tunteitamme, moni pystyy pitämään naaman peruslukemilla vaikka kuinka harmittaisi.

Millä tavalla kasvot sitten tunnistetaan? Aiheesta on tehty paljon psykologisia kokeita, joissa on mitattu, mihin silmät kohdistuvat kasvoja tarkasteltaessa. Tulosten mukaan katse kohdistuu todella usein silmiin ja nenään, ja jonkin verran suun alueelle. Nämä alueet siis sisältävät olennaista henkilöiden ja ilmeiden tunnistamiseen tarvittavaa tietoa.

Aikaisemmat tutkimukset on tehty näyttämällä kasvovalokuvia tietokoneen ruudulla, mikä ei täysin vastaa arkipäivän katselutilannetta, jossa kasvot ovat kolmiulotteiset. Niinpä Chelnokova ja Laeng (2011) ovat tutkimuksessaan selvittäneet, mitä eroa on silmänliikkeillä kun katsotaan kaksi- ja kolmiulotteisia kuvia.

Kokeita varten otettiin valokuvia neljästä miehestä ja naisesta. Kokeita varten kuvista poistettiin hiukset, jolloin tunnistamiseen voi käyttää vain kasvonpiirteitä. Kustakin kasvosta otettiin kaksi kuvaa, joiden välillä kameraa siirrettiin 6,5 cm vaakasuuntaisesti. Sen jälkeen nämä kaksi kuvaa yhdistettiin anaglyfistereogrammiksi, jossa kuvien välisiä eroja korostetaan eri väreillä. Kun tällaista kuvaa katsotaan laseilla, joissa oikean ja vasemman silmän edessä on eri värinen värikalvo, kuva näyttää kolmiulotteiselta. Alla olevassa kuvassa alemman rivin kuvissa näkyy turkoosin sävyjä, jotka värilaseilla näkyvät vain toiseen silmään ja näin luovat kolmiulotteisuusvaikutelman.

F1.large

Koeasetelmassa katsottiin ensin 1500 millisekuntia kohdistuspistettä (fixation cross), jonka jälkeen ruudulle ilmestyi kahden sekunnin ajaksi kasvokuva. Sen jälkeen tuli 50 millisekunnin harmaa tausta ja lopuksi vastausruutu, jossa koehenkilön piti valita viiden kasvokuvan joukosta ne kasvot, jotka he äsken näkivät.

F2.medium

Ei ole mitenkään yllättävää, että tulokset osoittivat kolmiulotteisten kasvojen tunnistamisen olevan tarkempaa kuin kaksiulotteisten. Tehtävä oli aika helppo, kaksiulotteisessa tilanteessa kasvoja tunnistettiin 88% oikein ja kolmiulotteisessa 92%. Silmänliikkeiden analyysi tehtiin määrittelemällä kuvaan niin kutsuttuja kiinnostavuusaleita (region of interest eli ROI). Käytännössä tämä tarkoittaa sitä, että kasvot jaettiin alueisiin kuten alla olevassa kuvassa: otsa, oikea silmä, vasen silmä jne. Tämän jälkeen laskettiin, kuinka pitkän aikaa katse kohdistui kuhunkin näistä alueista.

 

F5.medium

Tulokset on kuvattu olevassa pylväsdiagrammissa. Ylemmässä kuviossa (A) näkyy katseen kohdistusten suhteelliset ajat. Silmät ovat selvästi kiinnostaneet eniten, 22% katseluajasta on mennyt niiden katsomiseen. Hyvänä kakkosena tulee nenä, joka on ollut lähes yhtä kiinnostava. Suuhun ja poskiin on kiinnitetty selvästi vähemmän huomiota.

Alemmassa kuviossa (B) on samat tulokset esitetty niin, että katseen kohdistukset kaksi- ja kolmiulotteisissa kuvissa on erotelty toisistaan. Erot ovatkin selviä, kolmiulotteisessa kuvassa nenää katsotaan pidempään kuin silmiä. Myös poskia katsotaan kolmiulotteisessa kuvassa enemmän. Tulos tuntuu suhteellisen loogiselta, kolmiulotteiset kuvan osat vetävät katsetta enemmän puoleensa.

F6.medium

Tulosten esittelyn jälkeen alkaa kuitenkin selittelyosio, jossa selvästi puututaan artikkelin arviointiprosessin aikana esille tulleisiin asioihin. Ja ongelmiahan riittää. Ensinnäkin, kolmiulotteista kuvaa on katsottu värilasien läpi, mutta kaksiulotteista kuvaa on katseltu ilman laseja. Kasvoissa on siis ollut paljon muutakin eroa kuin kolmiulotteisuus. Toiseksi, stereokuva oli otettu siirtämällä kameraa vaakasuuntaisesti. Menetelmäosioissa ei ole mitään mainintaa jalustasta tai kuvien kalibroimisesta. Jos kuvat on todella otettu käsivaralla ainoastaan kameraa vaakasuuntaisesti siirtäen, voi stereokuvissa olla todella pahoja virheitä, jotka voivat helposti kiinnittää katsojien huomion. Stereokuvat voivat siis näyttää paitsi kolmiulotteisilta, myös oudoilta tai täysin vääriltä. Nämä ovat aika vakavia ongelmia, joten artikkelin kirjoittajilta on vaadittu toinen koe, jossa virheet on korjattu.

Kakkoskokeessa stereokuvat on otettu Fujifilmin stereokameralla, jossa on kaksi kameraa kiinteällä etäisyydellä toisistaan. Tämä on varmasti parantanut kuvien laatua. Kuvia ei kuitenkaan ole tälläkään kertaa tarkistettu virheiden varalta. Lisäksi toisessa kokeessa on tutkittu anaglyfisten värilasien vaikutusta ilmiöön tekemällä neljä eri koeversiota: kaksiulotteiset kuvat ilman anaglyfilaseja, kaksiulotteiset kuvat anaglyfilasien kanssa, kolmiulotteiset kuvat ilman anaglyfilaseja ja kolmiulotteiset kuvat anaglyfilasien kanssa. Tuossa ”kolmiulotteiset kuvat ilman anaglyfilaseja” -koetilanteessa on kyllä se vika, että kuvat eivät ole näyttäneet kolmiulotteisilta. Anaglyfilasien ja kolmiulotteisuuden vuorovaikutusta tässä ei siis pystytä sulkemaan pois. Jostain syystä myös kasvojen katseluaikaa on pidennetty sekunnilla kolmeen sekuntiin.

Yleiset tulokset (Kuva A alla) ovat aika samanlaisia kuin ykköskokeessa, silmiä ja nenää katsotaan eniten. Kaksi- ja kolmiulotteisten kuvien vertailu (Kuva B alla) paljastuu kuitenkin jotakin outoa. Ensinnäkin, jostain syystä ajat raportoidaan tällä kertaa keskimääräisinä katseenkohdistusaikoina (Mean fixation time), jolloin tuloksia on vaikeampi vertailla edelliseen kokeeseen, jossa raportoitiin suhteelliset kohdistusajat prosentteina. Tämä ei ehkä ole kriittistä, mutta hankaloittaa vertailua.

Mielenkiintoinen juttu on silmiin kohdistuvien kohdistusten erojen väheneminen 2D- ja 3D-tilanteiden välillä. Miksi muutetussa asetelmassa ihmiset katsovat 3D-tilanteessa enemmän silmiin? Eräs selitys saattaisi olla pidentyneessä katseluajassa, ykkös- ja kakkoskokeessahan katseluaika piteni sekunnilla. Lyhyemmällä katseluajalla katse kohdistuu ensimmäisenä kuvan selkeästi erottuviin osiin eli niihin, jossa on paljon syvyyttä. Sen sijaan silmät, jotka ovat taustalla, eivät vedä huomiota aluksi niin paljon puoleensa. Mitä pidempi katseluaika on, sitä todennäköisemmin katselu alkaa muistuttamaan tavallista kasvojen katselua, missä silmät ovat tärkeä vihje siitä, mitä henkilö ajattelee ja aikoo seuraavaksi tehdä.

F12.medium

Kokonaisuuteena artikkeli on ihan mielenkiintoinen ja kertoo siitä, että kaksiulotteisilla kuvilla tehdyt kokeet eivät välttämättä kerro oikein sitä, mihin silmät kohdistuvat kasvoja tarkasteltaessa. Kolmiulotteisissa kasvoissa nenä ja poskipäät vievät huomiota enemmän. Toisaalta kokeessa on myös pahoja ongelmia, joista anaglyfilasien käyttäminen on se selkein. Anaglyfilasien värisuodattimet tuottavat aina erilaisia virheitä kuviin ja laseja käytettäessä näyttö pitäisi kalibroida huolellisesti, jotta näytön värit vastaisivat värisuodatinten väriä riittävän tarkasti. Lisäksi lyhyehkö näyttöaika on ongelmallinen juttu, se voi ylikorostaa syvyydessä erottuvien alueiden merkitystä. Tämä koe pitäisi toistaa hiukan paremmalla koeasetelmalla.

Lähteet

Chelnokova, O., & Laeng, B. (2011). Three-dimensional information in face recognition: An eye-tracking study. Journal of vision, 11, 1–15.

 

Tietoja jukkahakkinen

Työskentelen Käyttäytymistieteiden laitoksella, Helsingin yliopistossa. Tässä blogissa käsittelen havaitsemiseen liittyviä teemoja perustutkimuksesta visuaaliseen ergonomiaan.
Kategoria(t): havaitseminen, kasvojen havaitseminen, neurotiede, S3D, silmänliikkeet, stereonäkö, tarkkaavaisuus Avainsana(t): . Lisää kestolinkki kirjanmerkkeihisi.

Vastaa

Täytä tietosi alle tai klikkaa kuvaketta kirjautuaksesi sisään:

WordPress.com-logo

Olet kommentoimassa WordPress.com -tilin nimissä. Log Out /  Muuta )

Facebook-kuva

Olet kommentoimassa Facebook -tilin nimissä. Log Out /  Muuta )

Muodostetaan yhteyttä palveluun %s