Hankkeen ensimmäisen vaiheen raportti on ladattavissa JYX-tietokannasta. Hankkeesta kertovia podcasteja voi kuunnella Soundcloudista.
< Takaisin hankkeen etusivulle
Mikä on paras tekstianalyysityökalu toimittajalle? Arvosteluraportti.
Joskus toimittajalla on runsaudenpula lähdeaineistosta: tuhansia sivuja kymmenissä eri lähteissä, eikä välttämättä edes tiedä, mikä siellä olisi uutisarvoista.
Eri alojen tutkijat ovat luoneet monenlaisia tekstin louhinta-, laskenta ja analyysiohjelmia tutkimustyöhön isojen asiakirja-aineistojen läpikäymiseen. Heillä on näihin perinpohjaisia lähestymistapoja, joilla saa aikaiseksi vankasti perusteltuja tutkimustuloksia.
Mutta toimittajien tiedontarpeet ovat erilaisia: Yksittäisistä herkullisista löydöksistä voi uutisoida välittömästi löydön jälkeen. Toimittaja voi käyttää omiin aineistoihinsa tutkijoiden ohjelmia ja löytää helmiä muutamalla klikkauksella. Aineistoon voi palata uudestaan myöhemmin kattavampaa tarkastelua varten.
Tässä hankkeessa etsittiin ratkaisuja tähän ongelmaan: mikä on paras työväline toimituksille nopeasti selata läpi aineisto ja löytää uutisarvoinen tieto?
Hankkeen tutkijoiden lähtökohtana ohjelmien arvioinnissa on journalistisen tiedonhankinnan tavoitteet ja reunaehdot. Toimittajat eivät yleensä ehdi tutkia perinpohjaisesti aineistoa, vaan heillä on jo ennakkokäsitys siitä, mitä aineisto käsittelee ja mitä haluavat sieltä löytää. Kyse on etsimisestä, ei tutkimisesta. Ohjelmien arviointikriteerit mukailivat siis journalistisen työn erityispiirteitä.
Journalismin ideologisista kriteereistä huomioitaviksi tulivat riippumattomuuden, objektiivisuuteen pyrkimisen, lähdesuojan sekä tietosuojan kysymykset:
Journalismin ideologinen vaatimus oli myös ajankohtaisuus, eli uutisia on kyettävä tuottamaan päivänpolttavista asioista nopeasti. Käytännön journalistisen työn vaatimuksia olivat siis:
Hanke lähti liikkeelle vertaisarvioidusta tutkimusartikkelista, jossa esiteltiin tekstianalyysiohjelmia tiedonhankintamenetelmänä. Hankkeen aluksi toteutettiin kirjallisuuskatsaus, joka hakukriteerien pohjalta tuotti joko hyvin suppean tai liian laajan tuloksen: lähestymistapa on journalistiikan tutkimuksessa hyvin uusi, ja useiden tieteenalojen alalta ohjelmien käyttö on hyvin kirjavaa. Ohjelmien käyttö tutkimuksessa ja erityisesti näiden raportointi on hyvin vaihtelevaa.
Tutkimushankkeen näkökulmaa rajasi ennen kaikkea alkuperäisen artikkelin laskennallinen ja nopeaan hakuun ja tekstimassojen laskennalliseen analyysiin perustunut lähestymistapa. Tämä rajasi tutkijoiden hakemien ohjelmien vaatimuksia ja ominaisuuksia. Valikoituneissa tutkimusartikkeleissa mainitut ohjelmat ovat pääsääntöisesti korpuslingvistiikkaa varten alunperin kehitettyjä. Valitsemamme ohjelmat ovat myös lähteiden valossa yleisimmin maailmalla tarkoitukseensa käytettyjä. Vähemmän käytetyistä ohjelmista ei löytynyt kilpailijoita valituille ohjelmille: kaikkiaan erilaisia ohjelmia ja oikeastaan usein lähinnä apuohjelmiksi laskettavia toiminnaltaan rajallisia ohjelmia kokeiltiin kymmenittäin. Useita ohjelmia jätettiin arvioinnin ulkopuolelle niiden korkeiden kustannusten vuoksi ja siksi, että niiden kuvailtujen ominaisuuksien ei koettu juuri tuovan lisäarvoa ilmaisohjelmien toiminnallisuuksiin;
Korpuslingivistiikassa tekstianalyysiohjelmia on käytetty ainakin 70-luvulta alkaen. Kehityskulku ei toimittajien kannalta ole kaikilta osin toivottava: uusimpia ohjelmia on kritisoitu siten, että big datan tyyliseen valtavaan datamassaan tähtääminen on eri alojen tiedonhankinnan ja tutkimustyön näkökulmasta ylilyönti; big data-lähestymistapa edellyttää vielä nykyohjelmilla tiedon rakenteelta liiallista samankaltaisuutta tai "puhtautta" (?no robust import?) mikä edellyttää aineiston merkittävää esikäsittelyä ennen analyysiä. Lisäksi uusimpiin ohjelmiin täytyy usein rekisteröityä tai niitä on tilattava, jolloin tietosuoja- ja tekijänoikeuskysymykset ovat hankalia, koska aineisto ladataan pilvipalvelimille. Lisääntyneen monimutkaisuuden vuoksi käyttäjä ei myöskään aina täysin pysy kärryillä siitä mitä ohjelma itse asiassa tekee. Näin ollen onkin hienoa, että useita vanhemman sukupolven toimivia ohjelmia on saatavilla maksutta internetistä. Tutkimushankkeemme keskittyy arvostelemaan niitä, koska ne täyttävät hankkeen rajausten näkökulmasta kriteerit paremmin sekä niistä on olemassa edes vähän julkaistua kirjallisuutta.
Kirjallisuuskatsauksen sekä ohjelmien kokeilun jälkeen tehtiin laajemmat käyttökokeilut neljällä valitulla ohjelmalla. Ohjelmat asennettiin ja niiden käyttöä opeteltiin riittävästi, että niillä kyettiin tekemään testihaut kirjallisuuden pohjalta valituilla kolmella eri lähestymistavalla. Lähestymistavoiksi valittiin kirjallisuudessa mainitut perustoiminnallisuudet, joiden käyttö ei edellytä erityistä ennakko-osaamista, mutta mikä antaa merkittävää etua tiedonhankinnassa. Näitä ovat: 1. sanalistojen luonti ja sanojen laskeminen, 2. konkordanssihaku, 3. monipuoliset ja sujuvat hakumahdollisuudet halutuille avainsanoille.
Aineistohaut tehtiin englanninkielisellä sekä suomenkielisellä aineistolla. Englanninkielinen aineisto käsitti kirjallisuuskatsauksen tuloksen, suomenkielinen aineisto hallinto-oikeuksien ratkaisuja .pdf-tiedostoina. Molemmissa aineistoissa etuna oli se, että .pdf-tiedostot oli toteutettu osin suorina skannauksina kuviksi eikä tekstiksi, ja erityisesti englanninkielisessä aineistossa asiakirjojen rakenne oli hyvin vaihtelevaa johtuen lukuisista eri julkaisijoista.
Arviointi itsessään oli laadullista tulkintaa, jossa raportoitiin havainnot ohjelmien käytöstä kuhunkin tehtävään huomioiden samalla alussa mainitut journalistisen työn vaatimukset. Arvostelut ovat luettavissa seuraavissa luvuissa. Niissä pääpaino on kunkin ohjelman erityislaadun sekä erilaisten käyttötarkoitusten esittelemisessä, erilaisissa tilanteissa eri ohjelma voikin olla parempi. Lopussa olevassa yhteenvetoluvussa eri ohjelmia vertaillaan vielä taulukoituna.
Voyant Tools on lähtökohtaisesti web-pohjainen tekstin analyysiohjelma. Sen Java-pohjaisen serverin voi myös ladata omalle koneelle, jolloin ohjelma aukeaa edelleen oman selaimen kautta, mutta ei toimita siihen syötettyä aineistoa pilvipalveluun Yhdysvaltoihin.
Voyant Tools on helppo ja vaivaton käyttää: siihen voi lykätä muun muassa teksti-, HTML-, XML-, PDF-, RTF- ja Microsoft Word -tiedostoja. Latauksen jälkeen esiin nousee useita erilaisia analyysi-ikkunoita, jotka ovat auki vierekkäin. Ikkunoiden kokoa, järjestystä ja sisältöä voi muuttaa, kaikki vaihtoehtoiset työkalut eivät ole heti nähtävillä.
Helppoa kuin heinänteko
Voyant Toolsin käyttö verkossa edellyttää vain vierailua verkkosivulla https://voyant-tools.org/. Esimerkiksi täysin julkisen aineiston kuten verkkosivuilta ladatun materiaalin voi huoletta ladata ohjelmaan ja katsoa, mitä kaikkea aineistosta paljastuu.
Mikäli ei halua aineistonsa päätyvän ulkomaalaiselle pilvipalvelimelle, täytyy luoda paikallinen serveri. Ohjeet ja linkit löytyvät osoitteesta https://voyant-tools.org/docs/#!/guide/server . Lisäksi paikallista serveriä varten pitää ladata Java-ohjelmistoympäristö. Javan saa ladattua osoitteesta https://www.java.com/en/download/
Voyant Toolsin suurin miinus on tämä paikallisen serverin Java-pohjaisuus, koska serverin käynnistäminen vie aina aikansa ja Java ohjelmistona täytyy päivittää melko usein. Ohjelman tekniset laitteistovaatimuksetkin ovat oikeastaan Javan käyttövaatimukset. Lisäksi Voyant Toolsissa ei ole mitään automaattista päivitystä, vaan uusi kehitetty versio on osattava hakea itse verkosta.
Kun aineisto on ladattu Voyant Toolsiin ja analyysinäkymä aukeaa, voi se ensin vaikuttaa sekavalta, koska erilaisia analyysinäkymiä on auki kerralla kokonaista viisi kappaletta. Tämä on kuitenkin työkalun suurin etu: erilaisia näkymiä voi käsitellä yhtäaikaa ja esimerkiksi yksittäisen asiakirjan tarkastelu onnistuu nopeasti työkalun avulla samanaikaisesti kun muut ikkunat ovat auki. Lisäksi tehtävästä riippuen useimpia ikkunoita ei yleensä tarvita. Joskin erilaisia työkaluja on käytettävissä enemmän kuin mitä näkyvillä on näkymiä. Näkymät voikin valita mieleisekseen.
Erilaisia työkaluja on 24 erilaista, joista tosin suurin osa on erilaisia visuaalisia apuvälineitä, joiden suora hyöty on vaatimaton. Erilaiset tiedonhankintatutkimukset kuitenkin korostavat, että varsinkin aineiston ensisilmäyksen tukena visuaalisilla työkaluilla voi olla suuri orientoiva merkitys.
Perustyön perustyökalu
Toinen miinus ohjelmassa on, että siinä ei ole omaa tallennusmahdollisuutta. Joka käynnistyskerralla se alkaa ikään kuin nollatilanteesta, eli siihen ei voi tallentaa omia asetuksia. Toisaalta, eipä näitä tarvitsekaan: tulokset voi viedä esimerkiksi .csv-tiedostoiksi avattavaksi vaikkapa Microsoft Excelissä ja tarvittavia asetuksia voi pitää omalla .txt-tiedostolla.
Voyant Tools on kaikista hankkeessa kokeilemistamme työkaluista selvästi helppotajuisin ja nopein käyttää menestyksekkäästi. Se sopii erinomaisesti suurten aineistojen selailuun ja etsimiseen toimittajan perustyön ohessa. Siksi se on valittu tässä hankkeessa opasvideoiden kohteeksi ja sen käytöstä on tarkempi opas. Isompiin ja pitempiin tutkiviin projekteihin voi sitten käyttää esimerkiksi AntConcia.
Perustiedot:
Wordsmith on vanha ja edelleenkehitettävä kielitieteilijöiden apuväline sanojen laskemiseen ja kielen rakenteiden tulkitsemiseen.
Wordsmithin vahvuuksia ovat yksinkertaisuus ja selkeys, huonoja puolia ominaisuuksien puuttuminen ja toiminnan rajallisuus muihin vertailtuihin ohjelmiin verrattuna.
Ohjelmasta on vuosien mittaan luotu uusia versioita. Versiot 5.0 ja 4.0 ovat ladattavissa ilmaiseksi. Uusimmat versiot maksavat 50 puntaa plus arvonlisävero. Tämä arvostelu koskee versiota 5.0.
Yksinkertaista laskentaa
WordSmithin voi ladata osoitteesta https://www.lexically.net/wordsmith/downloads/. WordSmith 5.0 versioon on asennuslinkki sekä ilmaisen rekisteröimisavaimen tiedot osoitteessa https://lexically.net/wordsmith/version5/.
Lataus sekä asennus on helppoa ja nopeaa, ohjelma toimii itsenäisesti kotikoneella eikä ole yhteydessä verkkoon.
Wordsmithin käyttö on selkeää ja perusnäkymä on yksinkertainen. Wordsmithin ytimessä on kolme ohjelmaa: WordList, joka laskee sanat aineistosta, KeyWords, joka vertaa aineistoa suurempaan vastaavaa kieltä olevaan tekstiaineistoon, sekä Concord, joka tekee valituista sanoista konkordanssihaun.
Ohjelman suurimpia huonoja puolia on eri tiedostomuotojen tuen puute. Ohjelma edellyttää aineiston muutamista tekstitiedostoiksi (.txt ). Se onnistuu helpoiten esimerkiksi massamuunnosohjelmalla (mass conversion), kuten XpdfReader tools, joka osaa muuttaa myös kuvia tekstiksi (OCR).
Tehdasasetukset ovat hyvät sanalistojen tekemiseen ja konkordanssiin. Asetukset ovat englanninkieliset, mutta sieltä kannattaa vaihtaa päälle suomenkielen tuki.
Avainsanojen etsiminen edellyttää verrokiksi suurempaa tekstiaineistoa, korpusta. Tämän tekstiaineiston pitäisi olla samantyylistä tekstiä kuin tutkittava aineisto. Wordsmithin valmistanut yritys Lexically viittaa itse sivuillaan tutkimukseen, jonka mukaan viisi kertaa suurempi aineisto on riittävä verrokkiaineisto avainsanojen etsimistä varten.
Konkordanssihaku toimii nopeasti ja sujuvasti. Mutta haun huono puoli on monipuolisuuden puute: erilaisia näkymiä ja varsinkin visuaalisia tuloksia puuttuu.
Kun tarkoitusperät on selkeät ja suppeat
Tutkijoiden kannalta Wordsmithin etuna on se, että sitä on käytetty paljon erilaisessa tutkimuksessa, joten siitä löytyy menetelmällistä kirjallisuutta ja vertaisarvioituja lähteitä.
Lisäksi jos toiminnan tavoitteet ovat selkeät, tarkoitus on laskea sanoja ja tehdä konkordanssihakua, on Wordsmith oiva työkalu. Asetuksia voi säädellä melko monipuolisesti ja säilyvät omalla koneella tallessa seuraavaa käyttöä varten.
Wordsmith on tavallinen tietokoneohjelma, josta saa pikakuvakkeen työpöydälle. Se on siis luonteeltaan Voyant toolsia aavistuksen yksinkertaisempi käynnistää ja käyttää, myös toimintojensa selkeydessä. Siitä kuitenkin puuttuu erityisesti visuaalisia näkymiä ja myös Voyant tools on helppokäyttöinen, sekä siihen voi syöttää monipuolisempia erilaisia tiedostomuotoja.
Perustiedot:
AntConc on korpusanalyysityökalupakki konkordanssihakuja ja tekstianalyysiä varten. Kuten Wordsmith, myös Antconc on ollut kattavasti käytettynä maailmalla. Antconc on vain freewarepohjalta pääasiassa yhden tutkijan varassa kehitelty ohjelma. AntConcissa on myös useampi erilainen työkalu Wordsmith 5.0:an verrattuna.
Kulmikkaampi ja teknisempi
AntConcin lataus ja käyttö on näistä arvosteltavista ohjelmista perinteisin ja selkein omalla koneella: koneelle ladataan asennustiedosto ja sitten ohjelma avataan koneella kuin mikä tahansa muu ohjelma.
Voyant Toolsiin verrattuna AntConc on kulmikkaampi ja teknisempi: sen käytössä ei heti avaudu intuitiivisia ikkunoita, vaan toiminnot ovat usein kielentutkijoiden ammattikielellä nimettyjen valikoiden takana. Käyttäjän pitää tietää etukäteen mikä kukin työkalu on ja mitä se tekee. Lisäksi käyttöjärjestelmässä on avoinna yksi työkalu kerrallaan, mistä suurimpana miinuksena on se, että yksittäistä asiakirjaa tarkastellessa muut näkymät ovat poissa näytöltä.
Ohjelma edellyttää siis vähän perehtymistä ja opettelua. Voyant Tools avaa eri näkymiä heti rinnakkain ja niistä useimmista näkee päällepäin heti mistä on kyse - mikä on visuaalinen apuväline, mikä varsinainen haku ja niin edelleen.
AntConc on hyvin monipuolinen ja sitä voi säätää asetuksista monella eri tavalla itselleen mieleiseksi. Tämä on toki myös heikkous, koska toimintojen monipuolisuus ja ylenmääräinen teknisyys eivät välttämättä ole toimittajalle hyveitä.
Toisin kuin Wordsmithin uusimmat versiot, AntConc on täysin ilmainen (freeware) yksityiseen käyttöön. Sen sijaan yritysten pitäisi maksaa käyttäjäkohtainen lisenssimaksu. Siksi se saattaa olla hankala käytännössä esimerkiksi mediataloille. Freelance-toimittajalla ei pitäisi olla mitään ongelmaa.
Pidempiin projekteihin
Mikäli toimittajalla on aikaa ja halua perehtyä ohjelmaan ja sen ominaisuuksiin, voi AntConc olla tehokas apuväline. Sitä kun voi räätälöidä mieleisekseen ja säädöt pysyvät tallessa ensi kertaa varten. Projektejaan voi tallentaa ja jatkaa seuraavalla kerralla, eli isommissa tutkivissa hankkeissa tästä voi olla ajan mittaan suurempi hyöty kuin Voyant Toolsista. Sen sijaan perustoimittajan perustyöhön siinä on liian suuri oppimiskynnys. Voyant Tools on nopeampi omaksua ja käyttää.
Perustiedot:
Overview on varta vasten journalistista tiedonhankintaa varten tutkimushankkeiden pohjalta luotu tekstinlouhinta- eli haku- ja tekstianalyysiohjelma.
Toimittajille räätälöinnin vuoksi ohjelma on kiinnostava. Ohjelman luoneet tutkijat ovat kirjoittaneet myös hyödyllisiä tutkimusartikkeleja ja muita julkaisuja, joissa läpikäydään toimittajien kannalta olennaisia asioita tämänkaltaisille ohjelmille.
Ohjelmassa onkin toimittajan työn kannalta selkein käyttöliittymä: lataat aineiston ja sen jälkeen voit valikoiduilla toiminnoilla analysoida aineistoa. Ohjelman näkökulman on yhteyksien hahmottaminen aineistosta. Muista ohjelmista poiketen tutkijat ovat korostaneet visuaalisia hahmotustyökaluja, eli esimerkiksi vesiputous-näkymää valikoitujen asiasanojen jakautumisesta ja ilmenemisestä eri asiakirjoissa. Tutkijat ovat myös pitäneet tärkeänä toimittajien mahdollisuutta merkitä omia avainsanoja asiakirjoihin ("tag").
Valitettavasti tutkimushankkeet ohjelmasta ovat päättyneet, eikä sitä enää jatkokehitetä. Tämä näkyy erityisesti kahdessa asiassa: asentamisen ja käytön vaikeudessa, ominaisuuksien keskittymisessä englanninkieliseen aineistoon sekä heikoissa näkymätuloksissa. Ohjelma kuitenkin olisi unix-ohjelmointia osaavan räätälöitävissä omia tarpeita paremmin palvelevaksi.
Asentaminen
Overview on ladattavissa ilmaiseksi, joskin ohjelman asentaminen ja käynnistys eivät ole helppoa. Overview:n GitHub -sivuilla on ohjeet muun muassa ohjelman asentamiseksi ja käynnistämiseksi: https://github.com/overview/
Overview on laadittu Unix-pohjaisena. Toimiakseen Applella tai Windowsilla se vaatii Docker-virtuaalityöskentelytilan. Se taas edellyttää tietokoneen emolevyltä virtuaaliympäristön mahdollistavia toiminnallisuuksia. Käytännössä tämä tarkoittaa, että vain osa uusimmista tietokoneista kykenee Dockeria käyttämään (lisätietoja löydät osoitteesta https://docs.docker.com/desktop/windows/install/ ).
Paikallinen asennus avautuu selainpohjaisesti. VoyantToolsiin verrattuna ohjelman käyttö sujuu huomattavasti hitaammin ja vaatii enemmän muistia.
Asennettu ohjelma tarjoaa helposti vikailmoituksia serveriasetuksista ja osa toiminnallisuuksista ei ole heti päällä. Mikäli osaa säätää tietokonettaan ja ymmärtää hieman koodin päälle, ovat nämä ongelmat voitettavissa.
Ohjelma käynnistetään lataamalla aineisto ja tämän jälkeen voi valita näkymiä jotka tarjoavat heti tuloksia muutamalla klikkauksella. Suomenkielisessä aineistossa tulokset vain eivät ole kovin laadukkaita: vaikka ohjelma tunnistaa ruotsinkielen kirjaimet, ei ohjelmaan asennetuista sanakirja- ja korpusaineistoista löydy suomenkielistä vaihtoehtoa.
Englanninkielisiä sanakirjoja ja tietokantoja hyödyntäen näkymissä on esimerkiksi valmiit pikavalinnat paikkakuntien, yritysten tai henkilöiden etsimiseksi aineistosta. Valitettavasti maailmasta löytyy esimerkiksi niin paljon erinimisiä pikkupaikkakuntia, että hutituloksia tulee runsaasti. Lisäksi kunkin näkymän logiikka vaikuttaa rakentuvan sanojen yleisyyden merkittävyyden varaan.
Vaikka ohjelman laatineille tutkijoille oli tärkeää, että siihen voi vaivatta syöttää monenlaista aineistoa, oli sitten asiakirjan rakenne tai tiedostotyyppi millainen vain ("robust import"), niin englanninkielinen testiaineisto sisälsi jonkin verran espanjankielistä tekstiä, mikä sotki useita hakutuloksia. Aineisto oli siis liian "likainen" vierasperäisillä sanoilla.
Esimerkki ikävästä pienestä puutteesta on, että erilaiset analyysilistat rakentuvat siten, että näytetään yleisimmät sanat yleisimmästä alkaen. Nämä listat katkeavat tietyssä vaiheessa, jolloin kaikista harvinaisimmat ja usein mielenkiintoiset yksittäiset sanat jäävät kokonaan näkymättä.
Itse haku ohjelmassa vaikuttaisi toimivan varsin hyvin - jos tietää mitä asiasanaa hakee aineistosta, tarjoaa haku asiakirjat ja kohdat. Lisäämällä tageja ja metadataa asiakirjoihin voi luoda esimerkiksi puunäkymän vain näistä tagatuista asiakirjoista.
Etuna on, että mikäli unix-taitoja löytyy, voi ohjelmaa itse räätälöidä ohjelmoimalla. Tällöin esimerkiksi eri näkymien järjestyksen muuttaminen sekä valmiiden sanakirja-aineistojen tai ohjelman kirjainmerkkituen lisääminen on mahdollista. Mikäli esimerkiksi datajournalistina harrastaa Linux-pohjaista työskentelyä joka tapauksessa, voi koneelleen räätälöidä itselleen Overview-asennuksen suurten data-aineistojen ensivilkaisua varten.
Perustiedot:
Tutkimushankkeen tavoitteena oli selvittää yksi ja paras tekstianalyysityökalu toimittajien työn tueksi, sekä laatia sen käytöstä mahdollisimman yksinkertainen opas ja ohjevideot. Täksi ohjelmaksi valikoitui Voyant Tools, koska se parhaiten täytti yleisjournalismin vaatimukset: se on hyvin intuitiivinen ja helppokäyttöinen ja sen kokeileminen ei vaadi minkäänlaista pohjaosaamista tai perehtymistä esimerkiksi korpuslingvistiikkaan. Ohjelma on silti hyvin monipuolinen ja kattava sekä ennen kaikkea hyvin nopea aineistonanalyysikeino. Se soveltuu hyvin vaikkapa jokapäiväiseen journalistiseen työkäyttöön aineiston analysoinnissa ja tutkimisessa.
Hankkeessa tarkemmin arvioitujen neljän lupaavimman ohjelman vertailun yhteenveto tässä:
|
Ominaisuus |
1. sija |
2. sija |
3. sija |
4. sija |
|
Asennuksen helppous |
Voyant Tools/AntConc |
WordSmith |
Overview |
|
|
Käynnistysnopeus (aineistonlataus) |
Voyant Tools |
WordSmith |
AntConc |
Overview |
|
Monipuolinen aineistolataus |
Overview |
Voyant Tools |
AntConc |
WordSmith |
|
Monipuolinen analyysi / |
Voyant Tools |
AntConc |
Overview |
WordSmith |
|
Monipuolinen vienti |
AntConc |
Wordsmith |
Voyant Tools |
Overview |
|
Hakujen toimivuus/käyttö |
Voyant Tools |
AntConc |
WordSmith |
Overview |
|
Asetusten tallentaminen/ |
AntConc/Overview |
WordSmith |
Voyant Tools |
|
|
Ominaisuus |
1. sija |
2. sija |
3. sija |
4. sija |
|
Asennuksen helppous |
Voyant Tools/AntConc |
WordSmith |
Overview |
|
|
Käynnistysnopeus (aineistonlataus) |
Voyant Tools |
WordSmith |
AntConc |
Overview |
|
Monipuolinen aineistolataus |
Overview |
Voyant Tools |
AntConc |
WordSmith |
|
Monipuolinen analyysi / |
Voyant Tools |
AntConc |
Overview |
WordSmith |
|
Monipuolinen vienti |
AntConc |
Wordsmith |
Voyant Tools |
Overview |
|
Hakujen toimivuus/käyttö |
Voyant Tools |
AntConc |
WordSmith |
Overview |
|
Asetusten tallentaminen/ |
AntConc/Overview |
WordSmith |
Voyant Tools |
Asennuksen helppous: Voyant Tools toimii heti selaimessa. Mutta jos haluaa kaiken aineiston pysyvän omalla koneella, on käynnistettävä Java-pohjainen palvelin. Tätä helpompaa on toki asentaa AntConc ja käynnistää se normaalisti. Wordsmith on muuten yhtä helppo, mutta oikean version löytäminen ja rekisteröiminen ilmaiskoodilla vaatii tietoa. Overview taas ei käynnisty ilman erillistä virtuaaliympäristöä.
Käynnistysnopeus: Voyant Tools kykenee lataamaan suurenkin aineiston nopeimmin. Wordsmith on myös nopea, mutta edellyttää aineiston muuntamista tekstitiedostoiksi. AntConc ei edellytä aineiston muuntamista, mutta suorittaa kauan suuremman aineiston latausta: noin kahden gigatavun aineistoa Voyant Tools mietti testikoneella 1,5 minuuttia, AntConcilla tunnin. Overview tekee aineiston lataamisen nopeammin, mutta itse ohjelman käynnistys on mutkikasta virtuaaliympäristön ja virheilmoitusten vuoksi.
Monipuolinen aineistolataus: Overview tukee laajinta skaalaa erilaisia tiedostomuotoja, jopa Powerpoint-tiedostoja. Voyant Tools tulee toisena ja myös AntConcin tiedostotuki on laaja, mutta se ei tue esimerkiksi MS Word-tiedostojen suoraa aineistolatausta. Wordsmith edellyttää kaiken aineiston muuntamista tekstitiedostoiksi (.txt).
Monipuolinen analyysi / Toiminnallisuuksien monipuolisuus: Voyant Toolsissa on eniten erilaisia työkaluja, eri erilaisia tapoja analysoida tietoa. AntConc tulee hyvänä kakkosena ja on ehkä tuloksissaan kaikkein kattavin, eli sen kaikki työkalut ovat niin sanotusti kovia työkaluja, eivät visuaalisia orientaatioapuja. Overviewn valikoima on monipuolinen mutta melko suppea.Wordsmithissä vaihtoehdot ovat kaikista niukimmat ja visuaaliset avut puuttuvat tyystin.
Monipuolinen vienti: Kaikkien analysoitujen ohjelmien vienti eli tulosten tallentaminen muiden ohjelmien käyttämiin tiedostomuotoihin on melko vaatimaton. AntConcista nämä ominaisuudet puuttuivat kauan ja on aika vastikään vasta lisätty, kattaen esimerkiksi teksti-, html- ja Excel-tiedostot. Wordsmith 5.0 tarjoaa teksti-, XML- ja Excel-tiedostoja. Voyant Tools tarjoaa niukempaa keinovalikoimaa ja selkeimmät tavat ovat .csv-tiedosto (tekstitiedosto jota esimerkiksi Excel osaa lukea) sekä suora copy/paste. Overviewssa on vain Excel-toiminto.
Hakujen toimivuus/käyttö: Kaikissa työkaluissa aineistosta hakeminen avainsanoilla on nopeaa ja sujuvaa. Sanalistat löytyvät, konkordanssihaku toimii ja asiasanalla etsiminen onnistuu. Voyant Tools vetää pisimmän korren käytön nopeudessa ja vaivattomuudessa, kun useat näkymät ovat auki yhtä aikaa. AntConc on kulmikkaampi, mutta tuottaa kattavia tuloksia, Wordsmith samoin mutta suppeammalla keinovalikoimalla. Overviewn tulokset olivat heikoimmat: datan likaisuus eli tiedon rakenteen epäselvyydet tai virheet sotkevat sen toimintaa selvästi eniten ja haut painottavat yleisimpiä tuloksia, jolloin on vaikea löytää harvempia osumia saaneita sanoja.
Asetusten tallentaminen/ohjelman räätälöinti: Voyant Toolsin asetuksia ei voi tallentaa. Tällöin räätälöinti jää erillisten asetusten tallentamiseen tekstitiedostoille. Muilla ohjelmilla taas tallennetut asetukset säilyvät ensi käynnistyskertaa varten ja ne voi myös tallentaa ja jakaa yheistyökumppaneille tai varmuuskopiona. AntConc, Overview ja Voyant Tools mahdollistavat myös avoimen lähdekoodin projekteina koodaritaitoiselle mahdollisuuksia säätää ohjelmaa omilla tavoilla.