Hledáme nového kolegu do redakce - 100% home office, 100% flexibilní pracovní doba. Více informací.
Využij akce až 80 % zdarma při nákupu e-learningu - více informací. Zároveň pouze tento týden sleva až 80 % na e-learning týkající se Swift
discount week 80

Algoritmus internetového vyhľadávača - Barely a crawler

V minulom článku o princípe internetových vyhľadávačov sme si uviedli prepis dotazu na binárne stromy. V dnešnom dieli sa budeme venovať dátovým barelom, ich štruktúre, StopSlovům a nakoniec si popíšeme Crawler.

Pretože sa jedná o pomerne unikátne informácie, budú ďalšie články ako prémiové, aby neboli len tak voľne prístupné a dostali sa k nim prevažne ľudia, ktorí majú o pochopenie algoritmu naozaj záujem.

Dátové barely

Jedná sa o špeciálny dátový typ, umiestnený na viacerých serveroch súčasne vo viacerých kópiách. Spravidla sa jedná o dátovo náročné súbory s veľkosťou stoviek GB a ich čítanie je pomalé (preto sú rozdelené na časti) a ich úprava je prakticky nemožná. Ak chceme vykonať hoci aj minimálnu zmenu, tak musíme prepočítať celý barel. Napríklad vyhľadávač Seznam.cz dátové barely zvláda prepočítať maximálne raz za mesiac, Google prepočítavanie vykonáva raz za niekoľko hodín (a to len niektorých častí, nikdy celý naraz).

Barely obsahujú


 

...koniec náhľadu článku...
Pokračuj ďalej

Vedomosti v hodnote stoviek tisíc získaš za pár korún

Minul si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.

Obmedzená ponuka: Nauč sa všetko a ušetri

Kúpiť lekcie a funkcie postupne a po jednom 50 bodov
Kúpiť všetky aktuálne dostupné lekcie s funkciou odovzdávanie úloh za exkluzívnu cenu 43 bodov (108 Kč)
Na svojom účte máš aktuálne 0 bodov
Kúpou tohoto výhodného balíčku získaš prístup ku všetkým 15 lekciím s kontrolou a certifikáciou a ešte naviac ušetríš 18 Kč. Ponuka je obmedzená len pre prvé lekcie z kurzu a obsahuje exkluzívnu zľavu 15%.
43 bodov získaš za pridanie svojho článku na sieť alebo za 125 Kč 108 Kč

Pozor, pokiaľ si kúpiš len tuto lekciu, stratíš nárok na špeciálnu zľavu 15% na balíček všetkých lekcií.

Kúpiť len lekcii 10 bodov
Na svojom účte máš aktuálne 0 bodov
10 bodov získaš za pridanie svojho článku na sieť alebo za 25 Kč

Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.

Čo od nás v ďalších lekciách dostaneš?
  • Neobmedzený a trvalý prístup k jednotlivým lekciím.
  • Kvalitné znalosti v oblasti IT.
  • Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.

Popis článku

Požadovaný článok má nasledujúci obsah:

Popis princípov fulltextového vyhľadávania na internete. Uvedieme si dátové barely, ich štruktúru, stop slovo a nakoniec si popíšeme Crawler.

Body získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.

Článok pre vás napísal Jan Barášek
Avatar
Autor článku podniká jako fullstack senior developer v Praze. Za svůj život napsal stovky středních i velkých webů, fungujících dodnes. Během spolupráce nabral hluboké zkušenosti, které na tomto webu předává dál.
Aktivity