Algoritmus internetového vyhľadávača - Indexácia a kanonizácie
V minulom článku o princípe internetových vyhľadávačov sme sa venovali dátovým barelom, ich štruktúre, StopSlovům a nakoniec si popísali Crawler. Dnešný diel je venovaný indexáciu a kanonizáciu dokumentov na internete.
Indexácia
Proces indexácia vykonáva komponenta zvaná Indexer. Jedná sa o špeciálne navrhnutý program, ktorý zo stiahnutých dát (tie dáta, ktoré stiahol Crawler) urobí špeciálny dátový typ určený na vyhľadávanie - barely.
Problém indexácia je v tom, že nemožno dokumenty "chytro" prechádzať, ale je nevyhnutné
...koniec náhľadu článku...
Pokračuj ďalej
Došiel si až sem a to je super! Veríme, že ti prvé lekcie ukázali niečo nového a užitočného.
Chceš v kurze pokračovať? Prejdi do prémiové sekcie.
Kúpiť iba tento kurz
Získaj okamžitý prístup ku kurzu bez
časového obmedzenia.
125 kreditov
Pred kúpou tohto článku je potrebné kúpiť predchádzajúci diel
Obsah článku spadá pod licenciu Premium, kúpou článku súhlasíš so zmluvnými podmienkami.
- Prístup k jednotlivým lekciám podľa spôsobu obstarania.
- Kvalitné znalosti v oblasti IT.
- Zručnosti, ktoré ti pomôžu získať vysnívanú a dobre platenú prácu.
Popis článku
Požadovaný článok má nasledujúci obsah:
Článok popisuje proces indexácie dokumente pavúkom a jeho vysporiadanie s duplikácie a plagiáty. Pokračujeme v popise algoritmu fulltextového vyhľadávača.
Kredity získaš, keď podporíš našu sieť. To môžeš urobiť buď zaslaním symbolickej sumy na podporu prevádzky alebo pridaním obsahu na sieť.