A keresési technológiák fejlődése, 1. rész

A számítógép előtt töltött időnk nagy részét kereséssel töltjük.

Ahhoz, hogy a fenti állítást igazoljuk, nem kell statisztikákat bújni, egyszerűen csak végig kell gondolni, mit csinálunk. Megkeressük a gépünk Power gombját (szerencsére gyorsan megtaláljuk), megkeressük a megfelelő program ikonját, a beállítások között az aktuális problémákat megoldó checkboxot, meg persze a fájljainkat, aztán azokban a megfelelő adatot. Egy jó kereső nélkül már a dokumentumai között sem igazodik ki a legtöbb ember, a kézi rendszerezés már jó ideje csak félmegoldás.

De a keresési algoritmusok igazi kihívása nem a My Computerben van. Keresők próbálnak meg eligazodást nyújtani nekünk a több mint 1,8 milliárd oldalt kínáló weben, a különféle digitális áruházakban, segíteni a forgalmi dugók elkerülésében vagy a hétvégi programunk újratervezésében, és szépen lassan az életünk minden pontján személyre szabott, kéréseinknek és szokásainknak megfelelő algoritmusok futnak, és real time próbálnak megoldást nyújtani az előttünk lévő akadályok legyőzésében.

1998-ban, a ma ezen a területen piacvezető Google, és korábban, az Altavista, AskJeeves, Yahoo!, Infoseek és a többi kereső indulásakor a feladat még csak így hangzott:

A felhasználóknak az egyre szaporodó weboldalak tengerében a lehető legrelevánsabb találatot kell adni a lehető legrövidebb idő alatt.

Egyszerű: ha a felhasználó megtalálja a legrelevánsabb oldalt, a többit elintézi magának.

Ennek érdekében pókokat (spider), más néven keresőrobotokat küldtek rá a webre, amik kigyűjtötték az oldalak lényeges és releváns információtartalmát (web crawling), az ez utáni indexálás az adott cég szerverén lehetővé tette, hogy gyorsan választ adhassanak a felhasználók szöveges úton benyújtott kérdéseire. A versenyben a később csatlakozó Google lett a nyertes, mivel a fenti folyamatokat olyan tömegben és módszerrel valósította meg, hogy aki releváns találatokat akart, ide jött.

Később már nem csak a weboldalak keresése okozott kihívást, a képek találata ugyanolyan fontos lett, és egy egészen eltérő algoritmusra volt ehhez szükség. Egy képnek önmagában ugyanis nincsenek jellemző értékei a színén és a méretén kívül, mégis kulcsszavakkal keresnek rá a felhasználók.

2001. szeptember 11-e a Google számára nagy tanulság volt. A New York Twin Towers kifejezésre a World Trade Center összeomlása után semmilyen releváns találatot nem kaptak a felhasználók. Az index ugyanis egy hónappal korábbi volt, és az eredmények nem tartalmaztak híreket, csupán akkorra már elavult információkat. Felgyorsultak tehát a folyamatok, és a fontos ez lett:

a találat MA legyen releváns, ne TEGNAP.

Szükséges lett tehát a hírek integrálása a keresési eredmények közé. De eközben egy másik igény is felmerült. Ez pedig így hangzott:

a találat NEKEM legyen releváns, ne MÁSNAK.

Vagyis a kereső ne csak azt vizsgálja, hogy arra, amit keresek, mi lehet az egyetemesen jó válasz. Azt is vizsgálja meg, hogy én egyébként milyen oldalakat részesítek előnyben, és feltehetőleg mely találatokat fogom értékesnek ítélni. Ez egyébként több hátránnyal is jár: például megnehezíti az új források megtalálását, szűkíti az adott felhasználó lehetőségeit. Sőt, mivel 2009 óta már minden keresésre érvényes a személyes találati lista – nem csak abban az esetben, ha be vagyunk jelentkezve a Google fiókunkba -, egy adott számítógépet többen használó család esetén nem is tudhatjuk, a találatok kinek a szokásait próbálják meg kiszolgálni.

A Google Personalized Search, vagyis a személyre szabott keresés előtt sem volt könnyű dolga azoknak, akik a keresőmotorokra kívánták optimalizálni a weboldalukat. A SEO egy külön szakmává vált már addigra, a folyamatosan változó algoritmusok, a Pingvin és a Panda kutatásai nehezítették a fejlesztők munkáját (ezek azok az algoritmusok, amik kiszelektálják a webspam tartalmat vagy a túlzásba vitt SEO megoldásokat, és ez alapján helyezi hátrányos helyzetbe az egyes weboldalakat).

De abban a pillanatban, ha az egyik embernek máshogy néz ki a találati listája, mint a másiknak, mindent újra kell értelmezni.

Az adott tartalom értékelése ráadásul részben átkerült a felhasználók kezébe. Facebook like-ok, Google +1-ek, Pinterest és Twitter megosztásra buzdító gombokkal kerültek tele a site-ok, így új információkhoz jutott a kereső. Nyilvánvalóan releváns információkat tartalmaz egy oldal, ha a valódi felhasználók sokáig tartózkodnak ott, megosztják a tartalmat és máskor is visszajárnak oda. Így tehát a jó minőségű tartalom előállítása lett a legjobb módszer arra, hogy egy oldal előre kerüljön a ranglétrán.

A kereső algoritmusok egyik legfontosabb célja pedig továbbra is ez a rangsorolás, a minél pontosabb sorrend a felhasználó számára. Egy másik cél azonban messze túlmutat ezen, és úgy próbálja meg kiszolgálni az igényeket, hogy egyáltalán ne kelljen már gépelni, sőt akár gondolkozni sem.

A következő részben a keresés újabb lehetőségeivel foglalkozunk, és megpróbáljuk kitalálni, merre halad a search engine-ek és interfészek jövője.

Forrás:
www.comscore.com
www.youtube.com
www.computer.howstuffworks.com
www.worldwidewebsize.com

server lightprogramming