Z uniknutej dokumentácie Googlu som vybral niečo cez 200 najzaujímavejších faktorov. Boli to krušné večery, víkend.
Najviac ma zaujali tieto témy:
★ Množstvo signálov na identifikáciu kvalitných odkazov a odkazového spamu
Teórií ako Google rozpoznáva spam je veľa. Teraz vidíme trochu viac do toho, aké signály by mohol reálne využívať:
- Veľmi často je zmieňovaný Pagerank, jeho rôzne obdoby (napr. Nearest Seeds Pagerank). Stále zohráva svoju rolu, nielen v link buildingu.
- Ukladá si info o pridavaní odkazov do už existujúceho obsahu
- Rieši krajiny, blízke lokality spojené s odkazmi → Teoreticky môže vnímať blízkosť CZ a SK, zohľadňovať to. Ale len špekulujem.
- Detekcia nepriamych prepojení: Napr. ak A odkazuje na B a ten na C, Google eviduje prepojenie A a C.
- Veľká pozornosť sa venuje detekcii neprirodzených anchor textov.
- Pomery dobrých a zlých odkazov
- Odkazy z dobrých webov, s pochybnými anchor textami
- Odkazy zo stránok, ktoré už majú iný podozrivý odkaz.
- ...
Cca 30 signálov z 200 najzaujímavejších súvisí s odkazmi.
★ URL zohrávajú väčšiu rolu než sa zdalo
Poučka hovorí, že URL by mala byť ako Danny DeVito. Krátka a ľahko zapamätateľná.
Avšak podľa úniku, z opakujúcich sa vzorov Google môže určovať dôležitosť stránky, jazyk, priority pre crawling a iné.
★ Google si dáva veľmi záležať na rozlišovaní rôznych druhov obsahu
Vyhodnocuje, či je stránka hotelom, atrakciou, komerčnou stránkou, blogom, maličkou osobnou stránkou atď.
Vieme, že rôzne typy stránok rozpoznáva. Ale som prekvapený, do akej ide hĺbky. To je dôležité uvedomiť si. Myslieť na to, aké typy webov sa zobrazujú na naše kľúčové slová vo vyhľadávaní, z akých typov webov sa snažíme získavať odkazy.
★ Prínos užívateľsky generovaného obsahu (UGC)
Google sleduje užívateľské interakcie, ako často sa takýto obsah na stránkach mení. V strojovom učení zbiera “UGC skóre”. Tieto dáta Google môže používať aj na odhad jazyku stránok.
★ Rozpoznávanie entít, autorov aj bez exaktného označenia
Google sa snaží porozumieť textu. Aj bez špeciálneho označenia štruktúrovanými dátami sa snaží poznať rôzne entity (zmienky značky, miest, ľudí,...) a prepojenia medzi nimi. Únik potvrdzuje, že to naozaj robí.
Určite vás napadne množstvo zaujímavých hypotéz, čo sa s tým dá robiť :).
★ Dáta z Google Chrome
Toto je pre mňa najzaujímavešia informácia, no asi ste ju už zachytili, preto to dávam na koniec. Únik naznačuje, že z Chrome sa používajú dáta o návštevnosti stránok. Viac nám zostáva skryté.
Chrome má skvelé dáta, ktoré povedia veľa o reálnom prínose webov pre užívateľov. Veľa o tom, aké stránky si zaslúžia top pozície. A na aké odkazy ľudia reálne klikajú.
Nevieme, či to reálne robí. Ale musíme počítať s tým, že to tak môže byť.
Tabuľku so všetkými 200+ signálmi som včera zdieľal v newslettri. Ak náhodou neodoberáte a zaujíma vás to, napíšte pls do komentára, nech sa to šíri :-). Príp. súkromnú správu. Pošlem vám to.