Dario o izradi site-a: prijava stranica na tražilice

Pojednostavljeno: kako se pretražuje Internet ?

Kad bi tražilice, poput Google-a, Yahoo-a ili Altaviste, radile tako da počnu pretraživati Internet nakon što je stigao korisnikov upit, njihova popularnost ne bi bila tako velika jer bi čekanje odgovora sve, osim najupornijih, natjeralo da odustanu. Stoga, tražilice sebi pripreme baze podataka s ključnim riječima, lokacijama i drugim podacima, pa kad korisnik zatraži odgovor, pretražuje se pripremljena i optimizirana baza podataka.

Unos podataka u takvu bazu može raditi čovjek (što je jako sporo i podložno greškama) ili specijalizirani program. Postoje posebni programi, zvani roboti (upotrebljava se i engl. naziv crawler), koji učitaju sadržaj, izdvoje ključne riječi, naslove, veze na druge dokumente i druge meta-podatke te ih pošalju u bazu. Nakon pregleda pojedine web stranice, robot može krenuti po vezama spomenutim u stranici i jednu po jednu, dalje pregledavati. Istih robota može biti puno i oni rade na raznim strojevima po Internetu. Na taj način su distribuirani roboti koji idu od stranice do stranice, prikupljaju podatke i šalju ih u centralnu bazu.

Roboti moraju imati startno mjesto, ishodište iz kojeg počinje njihov obilazak mreže. Startno mjesto, odnosno njegov URL, mogu se prijaviti (obično s malim komentarom i eventualno dodatnim podacima) na stranicama pojedine tražilice (popis nekih možete vidjeti pod naslovom "Pogledajte"). Kad prvi puta postavimo svoje stranice, treba ih prijaviti na stranicama tražilica. Nakon prijave, robotima može trebati do dva tjedna za posjetu (normalno posjet uslijedi u slijedećih nekoliko dana). Jednom upisane URL-ove, roboti u intervalima posjećuju kako bi uočili eventualne izmjene i ažurirali stanje u bazi.

Roboti imaju svoja imena, pa se tako Google-ov crawler zove "Googlebot".

Pojednostavljeno: kako robot pregledava sadržaj ?

Današnja generacija robota ne zna analizira sve vrste podataka koje se mogu naći na stranici. Sve vrste robota mogu analizirati tekstualne podatke, a neki roboti mogu analizirati datoteke u drugim formatima (najčešće pdf,doc,xls). Grafički i multimedijalni podaci ostaju nevidljivi. Roboti se ponašaju kao tekstualni preglednici.

Sa svake lokacije koju posjeti, robot učita sadržaj. Ako se radi o (X)HTML stranici, ona se rastavi na elemente (postupak se engl. naziva parsing). Svi tekstualni podaci rastave se na "riječi" (precizna definicija riječi je problem: uzmite u obzir različite jezike i tekstove pune npr. matematičkih simbola). Neke riječi robot ignorira, poput veznika i/ili priloga ili vrlo čestih riječi (robot ima popis riječi koje treba ignorirati, engl. "ignore list"), a ostale pripremi za unos u bazu.

Ovisno o robotu, nekim elementima daje se veće ili manje značenje (veća važnost, težina), a to su glavni naslov (element h1), ostali naslovi (elementi h2-h6), prvi odlomci teksta, linkovi na druge stranice, meta podaci opis (engl. description) i ključne riječi (engl. keywords) i slično.

Kod pregleda stranica nekog site-a, roboti moraju uzeti u obzir sadržaj datoteke robots.txt (koja se nalazi u ishodištu, engl. root-u, site-a). U robots.txt datoteci, autor stranica može navesti koje stranice robot treba ignorirati (može se specificirati prema nazivu robota). Na taj način, npr. mogu se "sakriti" stranice za koje je potrebna autorizacija.

Pretraživanje po geografskoj lokaciji

Internet nema nikakvu ugrađenu informaciju o lokaciji stranica i/ili autora teksta, a posebno o sadržaju koji se opisuje. Donekle je moguće saznati geografsku lokaciju jer je poznata veza između IP adrese i domene, pa je moguće odrediti lokaciju servera. Ali kakva je korist od informacije da se stranice nalaze na serveru u USA, ako se na stranicama opisuje život u Hrvatskoj ?

Značaj lokacije (engl. location awareness) ili informacije o lokaciji potencijalno omogućuju pretraživanje Interneta po kriterijima poput:

Za odgovore na takva pitanja, potrebno je unositi podatke o geo lokacijama na stranice. Danas postoje dva sustava za unos meta podatka o lokacijama, GeoURL i GeoTags. GeoURL je ograničen na ICBM oznake geografskih koordinata, dok GeoTags podržava i druge korisne podatke.

Autor ovih stranica označio je sve stranice u ishodištu site-a meta podacima za oba sustava. U zaglavlju (head dijelu) stranice navedeno je:


<meta name="ICBM" content="45.440, 16.284" />
<meta name="geo.position" content="45.440;16.284" />
<meta name="geo.placename" content="petrinja" />
<meta name="geo.region" content="HR-03" />

te je time omogućeno pregledavanje susjeda u geografskom smislu:

GeoURL

Pogledajte

Naslovna stranica