Aktuálně: Postihly zákazy tvou profesi? Poptávka po ajťácích prudce roste, využij podzimní akce 30% výuky zdarma!
Pouze tento týden sleva až 80 % na e-learning týkající se JavaScript

Algoritmus internetového vyhľadávača - Indexácia a kanonizácie

V minulom článku o princípe internetových vyhľadávačov sme sa venovali dátovým barelom, ich štruktúre, StopSlovům a nakoniec si popísali Crawler. Dnešný diel je venovaný indexáciu a kanonizáciu dokumentov na internete.

Indexácia

Proces indexácia vykonáva komponenta zvaná Indexer. Jedná sa o špeciálne navrhnutý program, ktorý zo stiahnutých dát (tie dáta, ktoré stiahol Crawler) urobí špeciálny dátový typ určený na vyhľadávanie - barely.

Problém indexácia je v tom, že nemožno dokumenty "chytro" prechádzať, ale je nevyhnutné


 

...koniec náhľadu článku...

Prémiový článok

Prémiový článok

Na itnetwork.sk sa nachádza najväčšia a najucelenejšia slovenská databáza s výučbovými článkami, ktorej cieľom je umožniť kvalitné vzdelanie v oblasti IT úplne každému. Mesačne zobrazíme okolo milióna článkov a dostaneme desiatky ďakovných emailov, kde nás informujete, že sme vám pomohli k lepšiemu zamestnaniu alebo vzdelaniu.

Hoci sa snažíme držať väčšinu obsahu úplne zadarmo, udržiavať sieť v prevádzke a aktuálnu stojí obrovské úsilie. Preto je nejaký obsah, ako cvičenia alebo odbornejšie články, prístupný len za body. Nebojte sa, nestojí to skoro nič :)

Popis článku

Požadovaný článok má nasledujúci obsah:

Článok popisuje proces indexácie dokumente pavúkom a jeho vysporiadanie s duplikácie a plagiáty. Pokračujeme v popise algoritmu fulltextového vyhľadávača.

Obmedzená ponuka: Nauč sa všetko a ušetri

Kúpiť články a funkcie postupne a po jednom 50 bodov
Kúpiť všetky aktuálne dostupné články v sekcii so všetkými funkciami za exkluzívnu cenu 43 bodov
Na svojom účte máš aktuálne 0 bodov
Kúpou tohoto výhodného balíčku získaš prístup ku všetkým 14 článkom s kontrolou a certifikáciou a ešte naviac ušetríš 19 Kč. Ponuka je obmedzená len pre prvé články z kurzu a obsahuje exkluzívnu zľavu 15%.
43 bodov získaš za pridanie svojho článku na sieť alebo za 125 Kč 106 Kč

Pozor, pokiaľ si kúpiš len tento článok, stratíš nárok na špeciálnu zľavu 15% na balíček všetkých článkov.

Pre prístup k článku potrebuješ 10 bodov
Na svojom účte máš aktuálne 0 bodov
10 bodov získaš za pridanie svojho článku na sieť alebo za 25 Kč

Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel

Kúpou článku k nemu získaš neobmedzený prístup a to nastálo. Posunieš svoje vedomosti zas kúsok dopredu a zároveň nám pomôžeš udržiavať celý projekt pri živote a pomáhať vám tak k lepšej budúcnosti.

Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.

Body získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.

Dobiť body môžeš okamžite napr .:

Kartou SMS Prevodom
Kartou SMS Prevodom
Článok pre vás napísal Jan Barášek
Avatar
Autor článku podniká jako fullstack senior developer v Praze. Za svůj život napsal stovky středních i velkých webů, fungujících dodnes. Během spolupráce nabral hluboké zkušenosti, které na tomto webu předává dál.
Aktivity (1)