Documente online.
Username / Parola inexistente
  Zona de administrare documente. Fisierele tale  
Am uitat parola x Creaza cont nou
  Home Exploreaza
Upload



















































Motoare de cautare

Informatica


Motoare de căutare

La mijlocul anului 1999 se estima că Internetul conține aproximativ 800 de milioane de pagini cu informații accesibile publicului larg. Numărul paginilor a crescut în ultimii ani exponențial și se estimează triplarea numărului lor în următorii doi ani.



Căutarea pe Internet poate fi privită ca o căutare într-un catalog imens, unde cărțile și revistele nu sunt grupate în nici o ordine, fără nici o referire într-un catalog central.

Majoritatea motoarelor de căutare oferă două tipuri de căutări: de bază (basic) și avansat (advanced).  În modul de căutare de bază căutarea se relizează foarte simplu; se introduce cuvântul cheie după care se dorește să se facă căutarea și, eventual, se pot alege unele din opțiunile oferite de motorul de căutare respectiv, căutarea putând deveni chiar complexă.

Căutarea avansată diferă de la un motor de căutare la altul, dar aproape toate oferă posibilitatea de căutare după mai multe cuvinte, de conferire a unei priorități mai mari unui cuvânt decât altuia și excluderea cuvintelor care pot afecta rezultatul căutării. Multe motoare de căutare aplică automat operatorul boolean AND în cazul căutării după mai multe cuvinte cheie.

Unele motoare de căutare oferă posibilitatea de căutare în nume proprii, în fraze, de căutare a cuvintelor care apar la o anumită apropiere de alți termeni dați. De asemenea, unele motoare de căutare permit specificarea locului în care să se facă căutarea, de exemplu în URL sau titlul paginii web indexate, sau precizarea modului în care să apară rezultatele.

Aproape toate motoarele de căutare permit căutarea folosind operatorii booleeni (AND, OR, NOT) și așa numiții operatori de apropiere (NEAR, FOLLOWED BY).

În momentul formării paginii rezultat sunt afișate toate paginile pe care motorul de căutare consideră că există cuvintele cheie căutate. În unele situații rezultatul căutării poate stârni confuzia pentru un utilizator. Acest lucru se întâmplă pentru că motoarele de căutare nu au ajuns, încă, la punctul în care oamenii și calculatoarele se înteleg destul de bine pentru a comunica corect. Deci, dacă cuvântul cheie după care se efectuează căutarea este unul comun, cu înțelesuri multiple, este foarte posibil ca în rezultatul căutării să apară paginii fără relevanță pentru utilizator.

Căutarea în fișiere text este utilă în cazul în care utilizatorii execută căutări doar în anumite fișiere predefinite. Un server Web bine făcut include posibilitatea de căutare a informațiilor după cuvinte cheie pe tot serverul, inclusiv în fișiere text și HTML.

Documentarea fară părăsirea propriului birou pare o idee excepțională, însă, adesea, se întâmplă să ne irosim timpul urmărind URL-uri inutile. Din acest motiv trebuie să gândim o strategie după care să efectuam căutarea. Un lucru util ar fi să ne gândim la vechi cataloage sau chiar la cataloagel 414f56e e actuale existente pe computer, unde căutarea se efectuează după autor, titlu sau subiect.

Pe marile motoare de căutare există o structurare pe domenii, cum ar fi: artă, afaceri și economie, calculatoare și Internet, educație, divertisment, guvern, sănătate, știri, recreație, stiință, cultură, etc. Fiecare din aceste domenii este împărțit în subdomenii și așa mai departe.

Deci, dacă știți foarte bine ce căutați atunci ar fi mai bine să începeți cu domeniul potrivit decât să folosiți motorul de căutare. Este foarte probabil ca domeniul să nu ofere atâtea pagini rezultat ca și căutarea folosind motorul de căutare, însă toate rezultatele oferite sunt la subiect.

De obicei, motoarele de căutare posedă cuvinte cheie proprii, care permit căutarea în indecșii lor pentru găsirea informațiilor de care aveți nevoie.

Aproape în toate motoarele de căutare structura de domenii descrisă anterior a fost pusă în strânsă legătură cu motorul de căutare, interacționând în diferite moduri.

Clasificarea motoarelor de cautare

Motoarele de căutare existente pot fi împarțite în două mari categorii: motoare de căutare (propriu-zise) și directoare de domenii.

Motoare de căutare propriu-zise

Motoarele de cautare permit căutarea după cuvinte cheie în bazele lor de date, create, de obicei, în mod automat de către roboți de indexare "paianjen". Bazându-se pe anumite criterii de căutare stabilite de utilizator sau de către motorul de căutare, acesta returnează documente web din bazele sale de date care corespund cuvintelor de căutare introduse de utilizator. Este foarte important de reținut faptul că în momentul în care folosiți un motor de căutare nu faceți o căutare "live" pe Internet, ci efectuați o căutare într-o bază de date care a fost actualizată înaintea căutării.

 

Fig. 11 Căutarea folosind un motor de căutare

 


Deși majoritatea motoarelor de căutare îndeplinesc aceeași sarcină, ele urmează drumuri diferite pentru a-și atinge scopul, ceea ce duce la oferirea de rezultate diferite de la un motor de căutare la altul. La motoarele de căutare diferă, de asemenea, viteza de căutare, design-ul interfeței de căutare și modul în care sunt afișate rezultatele.

Creșterea continuă a numarului motoarelor de căutare a condus la dezvoltarea utilitarelor de cautare "meta", adesea referite ca motoare de căutare multi-thread. Aceste permit utilizatorilor căutări multiple, în diferite baze de date, folosind aceeași interfață de căutare. Deși nu oferă același nivel de control asupra interfeție de căutare și nici același control logic ca și motoarele de căutare individuale, majoritate motoarelor de căutare multi-thread sunt foarte rapide. Mai nou, capacitățile motoarelor de căutare multi-thread au fost îmbunătățite prin adăugarea posibilităților de sortare a rezultatului după site, după tipul resursei, după domeniu, posibilitatea selectării motoarelor de căutare care să fie folosite și posibilitatea de modificare a rezultatelor. Aceste modificări aduse au crescut mult eficacitatea și utilitatea motoarelor de căutare multi-thread.

O categorie aparte a motoarelor de căutare sunt motoarele de căutare după domenii specifice. Aceste nu încearcă indexarea în întregime a Internetului. În schimb, ele își concentreză efortul pe căutarea paginilor dintr-un domeniu bine stabilit, după tipul resursei sau după zona geografică. Deoarece aceste motoare de căutare urmăresc acoperirea cât mai în profunzime a unui anumit subiect, decât acoperirea a cât mai multe documente. Din acest motiv, unele documente pe care le potem găsi pe aceste motoare de căutare după domenii specifice nu le vom găsi în nici una din baze de date ale marilor motoare de căutare.

Directoare de tematici

Directoarele de tematici sunt  indecși de domenii (subiecte) organizate ierarhic, care permit unui utilizator să le consulte pentru a găsi informația de care are nevoie. Ele pot include un motor de căutare pentru consultarea propriilor baze de date.

Directoarele de tematici tind să fie mai mici decât majoritatea motoarelor de cautare, deci, și lista rezultatelor tinde să fie mai mică.

Între motoarele de căutare și directoarele de tematici există unele diferențe. De exemplu, motoarele de căutare indexează toate paginile de pe o pagină web dată, pe când un director de tematici oferă doar un link către pagina principală. O altă mare diferență ar fi accea că, având în vedere că directoarele de tematici sunt întreținute de către om, posibilitatea oferirii unui rezultat în afara contextului este mult mai redus.

Pregătirea unui site pentru căutare

Utlilitarele de căutare pe site necesită spațiu destul de mare pe disc (fișierele index ocupă, de obicei, destl de mult spațiu) și putere destul de mare de procesare. De asemenea, fișierele index trebuie actualizate periodic pentru a furniza date actuale. Utilitarele de căutare permit programarea actualizării fișierelor index.

Rezultatul căutării conține, de obicei, titlul paginii și ceva text, cum ar fi primele linii ale paginii sau un rezumat al paginii cu pricina. Ordinea în care sunt afișate paginile depinde de algoritmul propriu al motorului de căutare.



Fig. 12 Modul de funcționare al motoarelor de căutare

 


Majoritatea motoarelor de căutare caută într-un fișier index creat de un utilitar care indexează documentele publicate pe server.

Pentru a trimite o cerere de căutare majoritatea sistemelor conțin un formular de căutare. Vizitatorul site-ului introduce cuvintele cheie într-un text-box și poate selecta alte opțiuni specifice existente în formularul de căutare. Când este apăsat butonul de căutare, serverul transferă cererea motorului de căutare.

Tipuri de motoare de căutare

Programe CGI (Common Gateway Interface)

Standardul CGI permite unui server Web să comunice cu programe externe. CGI-urile pot fi scrise în C, Perl sau Java, în funcție de serverul de Web sau de platformă. Multe      CGI-uri sunt portabile de pe UNIX pe Windows sau Mac și invers, în funcție de limbajul în care au fost scrise și de bibliotecile pe care le folosesc.

Script-uri PERL

PERL este un limbaj pentru realizarea scrip-urilor și, spre deosebire de C sau Pascal, în urma compilării lor nu rezultă fișiere obiect. PERL are propria sintaxă și propriile biblioteci de funcții și comunică cu serverul folosind standardul CGI. Script-urile PERL rulează pe aproape toate platformele și pe aproape toate serverele Web.

Forța limbajului PERL constă în posibilitatea efectuării unor prelucrări rapide asupra textului și a manipulării șirurilor de caractere.

Applet-uri Java și Java Servlets

Applet-urile Java sunt programe Java care rulează în cadrul browser-ului Web, folosind JVM (Java Virtual Machine). A stabili când și unde trebuie folosite applet-urile Java într-o pagină Web nu este o sarcină prea ușoară. Înainte de a umple o pagină cu  applet-uri, trebuie determinat dacă acestea sunt absolut necesare sau dacă aduc vreo îmbunătățire paginii respective. În cazul în care ele nu fac decât să crească timpul de încărcare, este preferabil să nu fie fololsite.

Java Servlets sunt aplicații scrise în Java utilizând Java Servlet API. Multe servere Web schimbă date cu  aplicații Java care folosesc această interfață, asemănător cu sistemul CGI.

Java Servlets sunt module Java care rulează într-o aplicație server. Java Servlets nu sunt "legate" de un anumit protocol, dar sunt cel mai des folosite cu HTTP, fiind folosit uneori termenul de "HTTP Servlets".

Spre deosebire de CGI-uri, Servlet-urile au câteva avantaje, cum ar fi:

a)     Un Servlet nu rulează într-un proces separat. Acest lucru elimină necesitatea creării unui proces nou pentru fiecare cerere.

b)     Un Servlet rămâne rezident în memorie după terminarea cererii, spre deosebire de un CGI care trebuie încărcat pentru fiecare cerere.

c)     Este folosită o singură instanță pentru a rezolva cererile.

d)     Un Servlet nu poate fi rulat decât de Servlet Engine, care permite folosirea în siguranță a servlet-urilor cu potențial distructiv.

Utilitare de indexare

Utilitarul de indexare repezintă aplicația care consultă textul documentelor publicate pe un server și le stochează într-un fișier numit de obicei index sau catalog (de către Microsoft), fișire formatat în așa fel încât să ușureze căutarea.

Aceste aplicații trebuie să poată salva fișierele index într-una anume director, de unde motorul de căutare să-l poată consulta.

Utilitare de indexare locale

Utilitarele de indexare locale indexează fișiere pornind de la structura de directoare a hard-disk-ului, de obicei pornind din directorul rădăcină. Majoritatea utilitarelor de acest gen permit indexarea fișielelor după nume, tip, extensie, locație etc.

Utilitarele  de indexare pot verifica dacă un fișier a fost modificat și deci pot adăuga la index informații doar din acele fișiere care au fost modificate sau din fișierele nou create. Acele utilitare de indexare care sunt în strânsă legătură cu sistemul de operare vor fi anunțate de modificările apărute în directoarele specificate pentru indexare și vor adăuga aceste noi intrări la index.

Utilitarele de indexare se dovedesc a fi bune la eliminarea paginilor duplicat, astfel încât la o căutare nu apar mai multe copii ale aceleiași pagini.

Utilitarele de indexare locale vor prelua documentul exact cum este el pe hard-disk.  Acestea nu vor include date dinamice din CGI-uri, SSI-uri (Server-Side Includes), ASP-uri (Active Server Pages) și altele, care pot constitui o mare parte a site-ului. Acest lucru poate constitui un avantaj dacă aceste elemente sunt repetitive, cum ar fi barele de navigare, sau un dezavantaj în cazul în care elementele dinamice reprezintă conținutul unei pagini

La indexare trebuie avut în vedere și aspectul securității, adică trebuie verificat dacă în interiorul directoarelor supuse indexării nu există și fișiere care nu ar trebui să fie accesibile. În cazul în care există, atunci ele pot fi accesate printr-o singură căutare.

Roboți "paianjen" de indexare

Roboții "paianjen" de indexare localizează fișierele pe care le vor indexa în mod similar roboților de pe motoarele de căutare. Utilizatorul trebuie să furnizeze o pagină de pornire, iar aceste utilitare de indexare vor stoca toate cuvintele existente în această și apoi vor urmări toate link-urile existente în pagina curentă îndexându-le și pe acestea și apoi urmărind link-urile existenet aici ș.a.m.d. Deoarece folosesc HTTP, roboții de indexare pot fi mai lenți decât utilitarele de indexare locale. Din păcate, roboții "paianjen" de căutare pot scăpa paginile spre care nu indică nici un link. Orice robot de indexare poate întâmpina probleme, la fel ca și roboții de indexare a marilor motoare de căutare, cu paginile cu mai multe frame-uri.

Pentru actualizarea indexului, unii roboți de indexare vor cere serverului informații despre starea paginilor care au fost indexate. Pentru aceasta se cere header-ul HTTP printr-o cerere HEAD (de obicei pentru un fișier HTML se execută o cerere GET). Serverul poate răspunde la cererea HEAD returnând informații despre pagină direct din cache, fără a fi nevoie să deschidă și să citească tot fișierul, și astfel interacțiunea cu serverul va fi mult mai eficientă. Apoi, robotul de indexare compară data modificării din header cu data la care indexul a fost ultima dată actualizat. Dacă pagina nu a fost modificată atunci nu se impunde actualizarea indexului. Dacă, însă, a fost modificată sau este nouă atunci robotul execută o cerere GET pentru toată pagina și stochează fiecare cuvânt în fișierul index.





Roboții de indexare trebuie să conțină o porțiune de cod care să identifice paginile duplicat, duplicari datorate mirroring-ului, greșeli în numele fișierelor, de exemplu "./" în loc de "../", și așa mai departe.

Webmaster-ii pot controla directoarele pe care roboții le vor indexa prin editarea fișierului robots.txt, fișier consultat de aproape toți roboții de indexare a marilor motoare de căutare.

La consultarea documentelor publicate pe server, roboții de indexare lasă "urme" în fișierele jurnal ale serverului la fel ca o persoană obișnuită. Deci, un administrator poate să-și dea seama ce a reușit și ce nu a reușit să indexeze un robot. De asemenea, se poate determina numărul de cereri pe care le fac roboții de indexare pentru a realiza o contorizare reală a numărului de accesări a site-ului.

Roboții de indexare pot fi identificați prin mai multe metode. De exemplu, aceștia pot fi identificați după numele host-ului, care încorporează o parte din numele motorului de căutare sau din numele companiei, cum ar fi spidey.webcrawler.com. Însă, o metodă mai bună de depistare ar fi după numele lor. Fiecare robot al marilor motoare de căutare are un nume bine cunoscut, cum ar fi Mozilla robotul lui Netscape, Scooter al lui Altavista, Slurp al lui HotBot.

Tag-urile Meta

Există mai multe tag-uri Meta, dar cele mai importante pentru roboții de indexare ai marilor motoare de căutare sunt description (descriere), keywords (cuvinte cheie) și robots.

Tag-ul description furnizează un sumar al paginii pe care l-ar realiza, oricum, motorul de căutare. Tag-ul keywords furnizează cuvintele cheie cu care va fi asociat site-ul în indexul motorului de căutare. Tag-ul robots permite specificarea paginilor care să fie sau nu indexate. Pentru a specifica pagina care nu trebuie indexată aceasta trebuie să conțină și următoarele linii:

<HEAD>

<TITLE>Această pagină nu trebuie indexată</TITLE>

<META NAME="ROBOTS" CONTENT="NOINDEX">

</HEAD>.

Căutarea în baze de date simple

Deși multe dintre informațiile unei companii sunt păstrate centralizat, unele dintre ele, cum ar fi o listă a produselor puse la dispoziție de firma respectivă, o listă a birourilor regionale, anumite informații despre angajați,  ar trebui facute publice. Toate aceste informații ar putea fi păstrate într-o bază de date relațională, dar este suficientă păstrarea datelor într-un banal fișier text. Scopul este acela de a furniza informații rapind și de a evita complicațiile care apar folosind bazele de date relaționale. Dacă anumite informații există deja în diferite baze de date proprietare, trebuie făcut un export într-un fișier text, aproape toate bazele de date permițând un astfel de lucru.

Această metodă de căutare permite selectarea bazei de date (fișierului text) în care să se facă căutarea. De exemplu, dacă se dorește căutarea numărului de telefon a unui anume angajat al unei companii care are filiale în Cluj-Napoca, București și Timișoara atunci reținem trei fișiere cu numerele de telefon ale angajaților (CJphone.txt, Bphone.txt și TMphone.txt). Alegerea bazei de date în care să se facă căutarea prin două metode: printr-un link corespunzător sau printr-o formă aflată în pagina web.

Dacă se optează pentru folosirea link-urilor atunci în textul sursă al paginii web trebuie inserate următoarele linii:

<A HREF="/database/CJphone.txt">Biroul Cluj-Napoca</A>

<A HREF="/database/Bphone.txt"> Biroul București<A>

<A HREF="/database/TMphone.txt"> Biroul Timișoara</A>.

În cea de-a două situație prezentată se poate folosi un grup de butoane radio și deci în textul sursă al paginii web trebuie să apară:

<INPUT TYPE="RADIO" NAME="DATABASE" VALUE="/ database/CJphone.txt" CHECKED> Biroul Cluj-Napoca <BR>

<INPUT TYPE="RADIO" NAME="DATABASE" VALUE="/database/Bphone.txt"> Biroul București<BR>

<INPUT TYPE="RADIO" NAME="DATABASE" VALUE="/database/TMphone.txt"> Biroul Timișoara <P>

Sub sistemele UNIX, căutarea se poate face foarte ușor folosind comanda grep. Aceasta comandă permite atât căutare simplă cât și căutare multiplă (în mai multe fișiere din același director sau din directoare diferite).

Căutarea pe tot serverul de Web

Soluția căutării pe tot serverul este similară oricărei căutări în bazele de date. Se folosește un index în care se reține un rezumat al datelor existente pe server. În mod similar cum datele sunt adăugate în bazele de date, tot așa se adaugă informații în fișierul index. De exemplu, se poate concepe un program care să actualizeze informațiile din fișierul index noaptea sau cât mai des posibil.

Căutarea folosind ICE

O soluție de indexare și căutare Web o reprezintă ICE, scris în PERL, lucru care îi permite să ruleze sub UNIX, Windows și MacOS.

ICE permite efectuarea următoarele operații:

-  căutare după cuvinte cheie folosind operatorii booleeni AND și OR;

-  căutare case-sensitive sau case-insensitive;

-  afișare HTML a rezultatelor obținute;

- posibilitatea de a căuta cuvinte similare din punct de vedere ortografic într-un dicționar existent;

-  posibilitatea de a căuta cuvinte și teme asemănătoare într-un lexicon;

-  posibilitatea de a limita căutarea la un anumit director.

Nucleul lui ICE este format dintr-un program PERL care citește fiecare fișier de pe serverul de Web și construiește fișierul index în format text. Programul care construiește indexul, în distribuția standard ice-idx.pl, are o metodă simplă de funcționare. Administratorul sistemului specifică locațiile fișierelor text și HTML care trebuie indexate. Când este rulat ice-idex.pl, acesta citește fiecare fișier din directoarele specificate și stochează informația într-un fișiere index, cu numele predefinit index.idx. cuvintele din fiecare fișier sunt ordonate alfabetic și contorizate pentru a putea fi folosite atunci când se execută o căutare.

Formatul fișierului index returnat de ICE este următorul:

@nume_fișier



@titlu

cuvânt1 contor1

cuvânt2 contor2

cuvânt3 contor3

...

@nume_fișier

@titlu

cuvânt1 contor1

...

Programul ice-idx.pl se rulează noaptea sau la un interval bine stabilit de timp astfel încât rezultatele furnizate de o căutare să fie bazate pe date actualizate. În mod normal, ICE indexează întregul conținut al directoarelor specificate, dar poate fi configurat astfel încât să indexeze doar fișierele noi sau cele modificate de la ultima actualizare.

Pentru a reduce dimensiunea fișierului index, ICE ignoră tag-urile din fișierele HTML și cuvintele care se repetă.

Motorul de căutare este alcătuit din programul ice.pl. Acesta citește fișierul index creat anterior, îl parcurge secvențial și furnizează numele fișierului în care apare cheia dupa care s-a efectuat căutarea.

Căutarea folosind WAIS

WAIS (Wide Area Information Server) este un alt software folosit pentru serverle de Web care rulează sub Windows NT.

WAIS este alcătuit din trei componente de bază:

WAISSERV - un intermediar pentru protocoale și un motor de căutare;

WAISINDEX - utilitarul de indexare;

WAISLOOK - utilitarul de căutare.

Motorul de căutare WAIS implementează operații de căutare cu operatori booleeni și fișiere asemănătoare.

Modul de operare al lui WAIS este asemănător cu cel al lui ICE, adică implică crearea fișierelor index și actualizarea acestora.

Programul WAISINDEX poate fi folosit pentru a crea indecși care pot fi folosiți doar în interiorul site-ului sau, dacă WAISINDEX este folosit cu opțiunea -export care permite înregistrarea datelor la baza de date "cea mare", se pot crea indecși care pot fi consultați de către public. Pentru înregistrare trebuie trimis fișierul index.src creat a o anumită adresă de   e-mail.

Criterii de selectare a rezultatelor unei căutări

Unul dintre primele locuri unde se realizează căutarea este în numele domeniului. Spre exemplu, dacă se încearcă căutarea după cuvintele cheie "road maps", atunci aceste sunt puse împreună pentru a se determina dacă nu se poate forma numele unui domeniu existent. De exemplu, http://www.roadmaps.com ar fi potrivirea perfectă, iar http://www.watermaps.com ar fi aproape perfectă (deoarece conține unul dintre cuvintele cheie după care s-a realizat căutarea) și vor căpăta o prioritate mai mare la căutare. Din acest motiv se recomandă folosirea cel puțin al unui cuvânt cheie în numele domeniului.

Selectarea rezultatelor unei căutări se face respectând următoarele criterii:

a)      Dacă cuvintele cheie nu se află în numele domeniului atunci se verifică dacă vreun cuvânt cheie nu se alfă undeva în URL, așa cum am exemplificat mai sus (http://www.eatermaps.com).

b)      Dacă nici unul dintre cuvintele cheie nu se află în URL atunci se caută în titlul paginii. De exemplu, dacă în codul sursă al paginii apare <TITLE>Road maps </TITLE> atunci un link spre pagina respectivă va fi inclus în pagina rezultat.

c)      Altfel, se verifică HEAD-ul (cuvintele din partea de sus a textului sursă).

d)      Altfel, se verifică asemănările dintre cuvintele cheie și contextul în care apare pagina web.

e)      În cele din urmă se face compararea cuvintelor cheie cu tag-urile Meta. Însă, unele motoare de căutare atribuie o prioritate mai mare verificării tag-urilor Meta decât contextului.

Se recomandă folosirea tag-ului TITLE în cadrul textului sursă al paginii web. Acesta poate fi format din cel mult 40 de caractere, cuprinzând atât literele cât și spațiile. Deoarece spațiul alocat titlului este relativ redus se recomandă evitarea folosirii cuvintelor de genul: "and", "the", "a", "or", "web", "internet", "an", "is", "www". De exemplu, în cazul motorului de căutare Altavista, dacă cadrul tag-ul TITLE nu se regăsește nici unul dintre cuvintele cheie după care se face căutarea atunci există șanse mari ca pagina să nu apară în rezultatul căutării

De asemenea, nu se recomandă utilizarea în numele domeniilor a următoarelor caractere: "!", "@", "#", "&", "_", "~". Multe motoare de căutare "urăsc" semnele de punctuație, în special "~". Spre exemplu, "-" (dash) a fost acceptat de mult ca delimitator de cuvinte în cazul numelor de domenii.

Motoarele de căutare nu agrează subdirectoarele. Deci, nu se recomandă folosirea subdirectoarelor pentru specificare unei paginii. Unele motoare de căutare "obișnuiesc" să nu caute mai adânc de unul sau două directoare. De exemplu, dacă adresa paginii web este: www.jaguar.com/transportation/cars/sports/jaguars/convertibles/xj6.html atunci este foarte probabil ca pagina să nu apară niciodată listată într-o pagină rezultat.

Unele motoare de căutare se uită să vadă care sunt ultimele lucruri care apar în codul sursă. De aceea, este recomandată trecerea URL-ului la sfârșitul codului sursă.

Indiferent de motorul de căutare folosit, stabilirea unei strategii de căutare este foarte importantă pentru obținerea rezultatului de care avem nevoie.

O strategi simplă poate consta din următorii pași:

a)      formularea întrebării și a scopului acesteia;

b)      determinarea conceptelor importante din întrebare;

c)      determinarea cuvintelor cheie care descriu aceste concepte;

d)      considerarea sinonimelor și variațiilor care pot apărea;

e)      pregătirea logicii de căutare.

O strategie de căutare bine pusă la punct este foarte importantă, mai ales în cadrul unei baze de date așa de mari cum este World Wide Web. Datorită creșterii numărului paginilor publicate pe Internet crește și numărul paginilor fără relevanță care sunt furnizate ca și rezultat al căutării.













Document Info


Accesari: 2341
Apreciat:

Comenteaza documentul:

Nu esti inregistrat
Trebuie sa fii utilizator inregistrat pentru a putea comenta


Creaza cont nou

A fost util?

Daca documentul a fost util si crezi ca merita
sa adaugi un link catre el la tine in site

Copiaza codul
in pagina web a site-ului tau.




Coduri - Postale, caen, cor

Politica de confidentialitate

Copyright © Contact (SCRIGROUP Int. 2019 )