Minták az adatdzsungelben
A probléma orvoslására a Kalifornia Egyetem és a Lawrence Livermore Nemzeti Laboratórium kutatói olyan algoritmust fejlesztettek, amely irdatlan méretű és komplexitású nyers adatsorokból is képes fontos jegyeket, mintákat kivonatolni.
Az algoritmust már használták sok milliárd adatponttal megjelenített jelenségek, folyamatok elemzésére, állítások igazolására, cáfolására.
„Bármely adatot bármely dimenzióban kezelő, működő rendszert hoztunk létre” – jelentette ki az ötéves kutatás-fejlesztést vezető Gyulassy Attila. „Arra számítunk, hogy az algoritmus a tudósok eszköztárának fontos része lesz adatokkal kapcsolatos kérdések megválaszolásakor.”
A számítógépeket egyre nagyobb mértékben használják a való világ jelenségeinek szimulálására, kísérletek és megfigyelések eredményeinek rögzítésére. Az információ számokban, számsorokban tárolódik. Ezek – akárcsak a számítási kapacitások – napról napra növekednek. A fejlődés hátulütője, hogy elemzésük, kiértékelésük egyre nehezebb, bonyolultabb, és nem utolsósorban felettébb időigényes munka.
Monumentális adatsorok elemzését két tényező teszi szükségessé: egyrészt a nagy teljesítményű, nagy mennyiségű adatot generáló számítógépek, másrészt az egyre több és egyre megfizethetőbb, terepen való gyűjtéshez használt érzékelő eszköz.
Az adatsorokban lévő hasznos elemek kivonatolására és képi megjelenítésére már körülbelül negyven éve létezik egy matematikai eljárás, a Morse-Smale leképezés. Gyulassy szerint hatékony, de gyakorlati alkalmazásokban nehéz vele dolgozni.
A Morse-Smale leképezést használó új algoritmus a sorokat hasonló tulajdonságok alapján csoportokra osztja, majd matematikai formulákká alakítja. Amikor az egyesített csoportokból új részeket hozunk létre, ugyanúgy elemzésre, majd egyesítésre kerülnek. A nem fontos (vagyis a memóriában nem tárolandó) csoportokat minden egyes lépésnél eltávolítják, így drasztikusan csökken a műveletek elvégzéséhez, futtatásukhoz szükséges számítási kapacitás. Az új algoritmus gördülékeny működéséhez már két gigabájt memória is elegendő.
Gyulassy jelenleg az algoritmust mások számára használhatóvá tevő szoftveren dolgozik.