google-76517_640

Cum funcționează Google

Algoritmul original folosit de Google pentru a sorta paginile web era cunoscut sub numele de pagerank dezvoltat în 1996 de către fondatorii Google, Sergey Brin și Larry Page. Dacă am aplica modul în care funcționează citările din Academia la întregul internet din lumea cercetării, conceptul este, practic, cu cât o lucrare are mai multe citări, este considerată mai importantă și relevantă. În mod similar, pagerank verifică backlink-urile de pe site-urile web, câte link-uri interne și externe are o pagină web, pentru a estima importanța site-urilor. Dacă multe site-uri de calitate au link-uri către o altă pagină, și acea pagină ar putea fi de calitate.  Atunci când acest algoritm a fost aplicat unui motor de căutare comercial, care a fost inițial numit backrub, s-au putut obține rezultate utile pentru consumatori. Pagerank este de fapt domeniul public. Azi, pagerank este încă considerat un factor folosit la sortarea rezultatelor căutării, dar mai este combinat și cu alte elemente.

 

Cum funcționează Google în zilele noastre?

Google navighează folosind crawlere web, ceea ce înseamnă că descoperă și compilează algoritmic pagini web noi și le adaugă într-o bază de date internă masivă de miliarde de site-uri. De asemenea, există câteva moduri în care motoarele de căutare precum Google pot găsi o pagină web nouă prin trimiterea unui bot, cunoscut și ca păianjen (spider), pentru a o vizita urmând link-uri din paginile cunoscute. Oamenii pot trimite anumite pagini pentru ca Google să le indexeze, folosind o hartă a site-ului (site map). Google randează pagina web în timpul acestui proces, folosind inclusiv JavaScript pentru a se asigura că tot conținutul este vizibil și memorează informațiile de pe fiecare pagină web.  Acest registru masiv de informații al Google este organizat într-un anumit fel. Conținutul din paginile web nou accesate cu crawlere este analizat și utilizat pentru indexare. Dacă ești familiarizat cu dezvoltarea web (webdev), aceasta include analizarea metadatelor ascunse, cum ar fi etichetele de titlu din fișierul HTML.

Google încearcă să filtreze conținutul de calitate scăzută. Acest lucru este foarte important. Motoarele de căutare de încredere determină calitatea conținutului prin semnale care sunt mii de caracteristici ale paginilor web care se aliniază la ceea ce oamenii ar putea interpreta ca fiind de înaltă calitate sau pagerank de încredere. Semnalele de viteză și web sunt elemente considerate vitale. Alt semnal este rankbrand, care folosește AI pentru a efectua căutări semantice sau pentru a da un sens conexiunilor dintre link-uri, conținut și pagini web.

Google a declarat că rankbrand învață să se îmbunătățească în timp și la un moment dat a fost cel puțin al treilea semnal ca importanță. Există, de asemenea, mii de evaluatori ai căutării de calitate care au sarcina de a se asigura că aceste semnale funcționează corect.

După filtrarea pe criterii de calitate, Google grupează paginile web care au informații similare. Este selectată o pagină web care reprezintă cel mai bine fiecare grup de pagini similare. Asta este ceea ce vezi în rezultatele căutării. Algoritmul Google este încă oarecum secret, pe de o parte din cauza naturii cutiei negre a inteligenței artificiale și pe de altă parte pentru a evita ca oamenii să se joace cu sistemul.

Ce se întâmplă atunci când cauți ceva, sau când introduci o interogare? Google face tot posibilul să folosească unele dintre semnalele discutate mai sus și să înțeleagă ce înseamnă acea căutare. Acest lucru poate fi dificil, deoarece, la fel ca oamenii, motoarele de căutare au dificultăți în a identifica lucruri precum tonalitatea, folosind doar text. Conform Google, a fost nevoie de cinci ani pentru a dezvolta un sistem pentru greșelile de ortografie și potrivirea sinonimelor. Acum, sistemul este folosit cam la 30% din căutări, așa că aș spune că a meritat efortul. După ce Google are o idee despre semnificația căutării, își va scana baza de date pentru a găsi paginile web pe care le consideră cele mai relevante. Relevanța este influențată de sute de factori, cum ar fi locația și limba ta, deoarece registrul Google este atât de masiv încât adesea există milioane de rezultate relevante pentru căutarea ta. Acele pagini sunt clasate programatic, luând în considerare relevanța lor și apoi sunt afișate, de obicei, în câteva milisecunde.

Să presupunem că fac o căutare despre știință. Google are deja unele informații despre mine din ultimele mele trei luni de utilizare: știe că locația mea este la o universitate, că studiez informatica, că am citit „The Verge”, „TechCrunch” și freeCodeCamp și că trei dintre cele mai vizitate site-uri ale mele sunt GitHub, freeCodeCamp și Stack Overflow.  Google a putut să folosească acest context în combinație cu interogarea mea, care este populară în zona în care mă aflu și a stabilit că doresc informații nu despre știință, ci despre știința computerelor (informatică). Poți testa cum funcționează acest lucru din orice locație.

Acum, că ai o idee mai bună despre modul în care Google găsește și afișează paginile web, să vedem cum poți formula interogări mai bune.