Egyéb

Hogy elemeznek az újságírók hosszú szövegeket?

Mit csinál egy újságíró akkor, ha félelmetes mennyiségű szöveg szakad rá? Egyesével olvassa el őket? Jobban jár, ha adatelemzőkhöz és kutatókhoz fordul, akik az elmúlt évek során áttöréseket értek el a szövegbányászat terén. Az alábbi cikkben bemutatunk néhány módszert és példát.

Ha nagy mennyiségű, rendszerezetlen adattal találjuk szembe magunkat, az a legtöbb esetben nagy falatot jelent. A legtöbb adat nincs megfelelően rendszerezve a kutatásokhoz, így előtte fel kell dolgozni őket. Ez szövegek esetében különösen nehéz, ugyanis nem mennyiségeket jelölő számokkal kell foglalkozni, hanem a szövegek valamilyen absztrakciójával. Miután egy szövegfelismerő szoftverrel felismertük a szöveget és szerkeszthetővé varázsoltuk, még mindig ott áll előttünk egy végeláthatatlan anyag.

Hasonló problémával találkoztak a Panama-akták feldolgozói is. Különböző műfajú (szerződés, jelentés, informális levél stb.) iratok tömkelegét kellett rendszerezniük. A 11.5 millió kiszivárgott dokumentum közel fele email volt, és nagy mennyiségben találhattak még benne adatbázisokat, szerződéseket, képeket. Az Oknyomozó Újságírók Nemzetközi Társulása (ICIJ) és a Süddeutsche Zeitung az alábbiakban is bemutatott módszereket használták, hogy lerántsák a leplet számos politikus, színész, sportoló, szervezet, és cég offshore üzelmeiről.

 

Névelem-felismerés

A névelem-felismerés célja, hogy bizonyos típusú szavakat, kifejezéseket szűrjön ki. Nevek, helyek, dátumok, összegek mind kiszűrhetők a szövegekből. Ennek alapja lehet egy szótár (aminek elemeit csupán keresi a szövegben), illetve egy nyelvtani algoritmus, ami az adott nyelv jellegzetességeinek megfelelve emeli ki a fontos részeket. Gépi tanulással is lehet próbálkozni, itt egy darabig egyengetjük egy algoritmus útját, hogy a mi visszajelzéseinkből tanulva az egyre pontosabb legyen. És ezek valóban pontos módszerek, manapság közel ugyanolyan jól működnek, ahogy emberek tennék azt. Az alábbi mondaton bemutatjuk, hogy mire képes.

 

Orbán Viktor és Gyurcsány Ferenc közös belizei offshore cégük, a VityaFecó Kft. segítségével tibeti kismacskákat vesznek, amiket aztán megesznek.

 

Az algoritmus pedig a következő eredményt adja:

 

Orbán Viktor(személy) és Gyurcsány Ferenc(személy) közös belizei(hely) offshore cégük, a VityaFecó Kft.(szervezet) segítségével tibeti(hely) kismacskákat(állat) vesznek, amiket aztán megesznek.

 

A felismerés lehetővé tette a szövegek azonnali címkézését, így azonnal áttekinthetővé és kereshetővé válik nem csak az adott elem, hanem ezek együttelőfordulása is. Tehát egy kutató másodpercek alatt lekérheti, hogy szerepelt-e egy dokumentumban egyszerre több keresési feltétel. A Panama-aktáknál kifejezetten sokat használták ezt a módszert, lényegében mindent átfuttattak rajta. Jennifer Golan és Shane Shifflet például arra használta, hogy bizonyítsa, kaliforniai szövetségi bírók jelentősen kedvezőbb ítéleteket hoznak olyan cégek számára, akikben van részvényrészesedésük.

 

Topikmodellezés

A topikmodellezés (vagy témamodellezés) célja, hogy absztrakt témákat fedezzen fel a szövegekben. Ehhez bizonyos kifejezések együttelőfordulását használja fel, vagyis egymáshoz hasonló szavakat emel ki témáknak, majd ezeket a témákat a szövegekhez sorolja. Tehát ha egy témának kiemeli az adó, járulék, bevétel, nyereség szavakat, akkor ez egy pénzügyi téma lesz. Ahol csont, szőr, csaholás szavakkal találkozunk, akkor az jó eséllyel kutyákról fog szólni. A dokumentumokhoz pedig valószínűségekkel hozzárendeli a témákat, tehát jelen esetben a Rex felügyelő című sorozat könyvelőgyilkossággal foglalkozó részének forgatókönyve az első és a második témára 20% és 80% témabesorolásokat kapna.

2014-ben a Reuters újságírói azt vizsgálták, hogy tíz év alatt az USA Legfelsőbb Bírósága miért csupán egy nagyon szűk körben hallgatja meg a beadványokat. Kik ezek az ügyvédek, és miért vannak ilyen kevesen? Kézi és gépi munkával együttesen képesek voltak megállapítani, hogy néhány tucat ügyvéd, akik jellemzően nagy cégek megbízottjai, aránytalanul sokszor fejthetik ki a véleményüket és érveiket a bíráknak.

 

Érzelemfelismerés

A érzelemfelsimerő algoritmusok nyelvtan és kifejezések alapján próbálják meg kideríteni, hogy egy-egy szövegrészlet milyen érzelmi töltetű. Ha ezt kombinálják a névelemfelismeréssel, akkor könnyenn kiszűrhető, hogy mondjuk bizonyos személyekkel, pozíciókkal szemben hogy jelentenek az újságok. A Washington Post újságírói arra derítettek fényt 2014-ben, hogy a USAID (az USA nemzetközi segélyszervezete) vezetői jelentősen átírták a nyilvános jelentések vázlatait, így 12 jelentésből összesen 400 negatív jelzőt távolítottak el.

 

Klasszifikáció

A klasszifikációs algoritmusok csoportosítanak dokumentumokat a bennük található kifejezések gyakorisága, súlya, néha akár jelentése alapján is. 2016-ban atlantai újságírók százezernél is több orvosi fegyelmi iratot vizsgáltattak át, hogy megtudják annak a mértékét, ahogy orvosok foglalkozási körben elkövetett szexuális zaklatás vagy bántalmazás után is tovább praktizálhattak. Néhány száz dokumentumot kézzel jelöltek meg, hogy ez szolgáljon tanulási alapként az algoritmus számára, majd ráeresztették az algoritmust a többi dokumentumra. Felfedték, hogy tömeges méretekben létezik a jelenség, és van egy szűk kör, akik számos alkalommal úszták meg a fegyelmezést.

Az LA Times 2015-ben hozta le a sztorit, miszerint a rendőrség közel egy évtizeden keresztül aluljelentette a súlyos testi sértéssel járó eseteket, és apróbb szabálysértésként tüntette fel őket. Ezzel nyilván a saját megítélésükön akartak javítani, de a klasszifikáció leleplezte ezt. Nyolc év alatt valójában 7%-kal több erőszakos cselekmény, és 16%-kal több súlyos testi sértés volt, mint azt jelentették.

 

Információátadás

Számos dokumentumot sikeresen lehet csoportosítani azzal, hogy mennyire hatékonyan ad át információt. A Zipf-törvény, mely többé-kevésbé áll az összes természetes szövegre, egy egyensúlyi állapotot mutat be a szavak gyakorisága között. Ha sorrendbe állítjuk a szavakat gyakoriság szerint, akkor a listán haladással ellentétes arányosságot mutat a szavak gyakorisága a helyzetükkel, és ez az arányosság pontosan leírható. Ha a várt arányosságnál kompaktabb a szöveg, ott jó eséllyel szakmai iratokról beszélhetünk, például szerződésekről. A jog merev fogalmazása és tömörsége nem találja meg az egyensúlyt a küldő és a fogadó között, ugyanis pont a precizitás folytán nehezebb dekódolni – hiszen nincs kiegészítés, keret, mese, ami segít ebben. Az emailek és jegyzőkönyvek viszont pont, hogy kevésbé korlátozottak, ugyanis kötetlenebb formát jegyeznek.

Megosztás