msgbartop
Weblog, který píše Ondřej Baar o internetovém marketingu, copywritingu a SEO, aby pomohl všem co mají zájem o pomoc
msgbarbottom



Pravda o zaokrouhlovani Sranku

Publikováno: 25. Listopad 2008

Tak prave se vezu z prednasky na tema “Vyhledávání a fulltext”, ktera probehla 25.11.2008 v aule Vysoke skoly Banske TU Ostrava od 12:30 do 14:00. A rád bych Vám poskytnul co nejvíce informací, které jsem tam zjistil.

Seznam.cz logo

Na dnesni prednasce jsem take v prubehu diky memu dotazu zjistil jak je to s novinkou seznamu a to zaokrouhlovani na desitky.

Nejedna se pry tedy o to, ze by se chteli pripodobnit google, ale proto aby usetrili HELPDESK!!!

Take si ted asi rikate jakou maji tyhle dve veci souvislost – ukazalo se ze velkou.

Kdyz se totiz stane ze „obcas“ vypadne „rankbot“ zpusobi to dve veci – klesne Srank nekterym webum o „par“ bodiku dejme tomu 4 body. A druhou a tou pro Seznam.cz dulezitejsi veci je: Zahlceni Helpdesku dotazy – co se stalo s Srankem na danych webech. Zaokrouhleni tak usetri seznamu dost zdroju, nebot helpdesk vlastne nebude mit skoro co delat… :o)

Na druhou cast dotazu nejdrive prednasejici rozporuplne zareagoval, ale neni se cemu divit, otazku jsem nepolozil zrovna nejlepe. A tedy po vysvetleni jsem se dockal odpovedi proc Srank zaokrouhluji nahoru az od cisla sest, a ne od 5, jak je matematicky spravne.

Odpoved byla nasledovna: “ A to jako opravdu, neni to nejaka chyba, a jste si jisty?“, kdyz jsem jej presvedcil argumenty a s okolnimi sedicimi – nasledovala odpoved, „hmm, tak na to se budu muset podivat, a rozhodne to neni spravne.“

Jelikoz jsem pravdu mel, v nasledujicich dnech ci hodinach, nebo i tydnech muzeme cekat obrovske zvedani Sranku :o)

Zaslano z iPhone 3G

Komentáře, přidejte svůj názor!

  1. |

    Na dnesni prednasce mi bylo receno to co je v clanku a beru to jako smerodatne, nebot informace jedna pani povidala, pripadne od nezkusene pracovnice helpdesku mi nic moc v tehle oblasti nenapovi. Za timto si stojim a ma to i svou sice prevracenou ale presto logiku Seznam.cz

  2. |

    Informace z přednášek Seznamu nejsou zrovna nejvěrohodnější. Je třeba je hodně filtrovat. Mezi spoustou polopravd a mlžení se tam ale občas něco zajímavého najde.

    S-rank se zaokrouhloval podle mého názoru proto, aby se nedal tak jednoduše zjišťovat jeho algoritmus. To s helpdeskem bych bral jako vedlejší důvod.
    To s podobností Googlu je v podstatě pravda. Seznam S-rank zaokrouhlil ze stejného důvodu, z jakého má PR jen deset bodů. Akorát, že vize „budeme mít stejně bodu jako Google“ je k tomu nejspíš nevedla.

    K tomu zaokrouhlování. Zaokrouhlovalo se matematicky. Problém je v tom, že na Seznamu mají nejspíš ještě přesněji vymezený rank než je stobodová stupnice. Protože třeba na odkazy.seznam.cz jsou weby seřazeny podle ranku a weby se stejným rankem za sebou nejdou náhodně. Výsledkem bylo, že některé weby s S-rankem 5 se zaokrouhlovaly nahoru a jiné dolů. Takový S-rank 35,1 šel nahoru a S-rank 34,9 šel dolů. Byť takový rozdíl nebyl na stobodové stupnici vidět.
    Odpověď přednášejícího o něčem vypovídá:-)

  3. |

    Dekuju za zajimavy komentar. Jen bych se rad zeptal, jestli mas overene ze stupnice je opravdu take desetinna… :o) V tom pripade, by to bylo spatne zaokrouhleni a dodalo by to na bulvarnosti, o coz mi nejde, Uz co se tyka udrzovani s-ranku jako hodnoty v databazi – jedna se o dalsi Bity navic – a pokud je v databazi opravdu 250 milionu dokumentu, tak dalsich 250 milionu bitu je nezanedbatelne cislo, hlavne co se zpracovavani tyka. V tomhle bych opravdu neveril tomu co rikas, i kdyz se hodnota zda byt relativne mala.

    Opravdu si nejsem v tomto jisty, ale to uz je polemika, v clanku jsem se snazil predat prednasena fakta.

    A jen pro uplnost – zastupce seznamu se mi zdal v oboru erudovanym – neni tam zadnym novackem a zodpovida za navrh vyvoje – stupnici podle me zna, a to, ze je desetinna by zminil. Jinak, spis podotkl, ze zaokrouhlovani mel na starosti nekdo jiny a ze to bude muset proverit.

  4. |

    Dobrý den,
    abych tedy uvedl na pravou míru co jsem zmínil na přednášce.
    To co uvedl MariN je de fakto pravda, myšleno „přesněji vymezený rank“. Otázku, zda počítáme rank na desetiny, setiny nebo na zcela jiné stupnici nechám otevřenou.
    Ranky které se ukazují v Lištičce ať po desítkách, nebo po jednotkách jsou přejímány a transformovány z jiné, řekněme interní stupnice. Ostatně to bylo na přednášce zmíněno, jen jsem tomu nedal asi patřičný důraz:)
    Podnětem pro zamyšlení a ověření správnosti úprav byla informace, že k podivnému zaokrouhlení došlo u více stránek stejným směrem.

  5. |

    Tak, ze nastivite muj blog, jsem Vazne necekal, kazdopadne me to Tesi. :o)

    To s temi desitkami, a stovkami jste tusim zminil dost durazne. Jen podle me datova struktura by byla zbytecne namahana dalsimi ciframi, to je muj nazor, i kdyz vim, ze clustery mate ted docela vykonove silne, na tolik, aby to bez problemu zvladly.

    Pro rypaly komentar od petrox prisel ze seznam.cz z ip 77.75.72.226, coz mohu pripadne dolozit a komentar je tedy relativne verohodny.

  6. |

    Petrox: Podle Vašeho komentáře vidím, že opravdu víte, o čem mluvíte. Omlouvám se za poslední větu svého komentáře. Vycházel jsem z autorova článku a z jiné přednášky od Seznamu, které jsem měl možnost se zůčastnit.
    Budu se těšit na předvánoční přednášku na VŠE:-)

    Ondřej: Ona ta interní stupnice asi není na desetiny ani setiny (Ty jsem uvedl já jen jako příklad, aby to bylo pochopitelnější). Pravděpodobně nepůjde o lineární funkci, ale nějakou logaritmickou, či jinou. Jak s tím mají řešený datový přenos ale nevím. To už je mimo můj obor:-)

  7. |

    [...] aby jeho fulltext byl co nejkvalitnejsi, s tim souvisi i obcasne ne prilis podarene jevy, jako zaokrouhlovani Sranku popripade jine libustky jako nedavne nasazeni lematizacniho slovniku, ci vylepseni relevance [...]

  8. |

    [...] do indexu pravděpodobně v souvislosti s přednáškou, na kterou reagoval přednášející v komentářích. Od Té doby není [...]

Komentáře, přidejte svůj názor!

You must be logged in to post a comment.

¨