msgbartop
Weblog, který píše Ondřej Baar o internetovém marketingu, copywritingu a SEO, aby pomohl všem co mají zájem o pomoc
msgbarbottom



Kudy se vydava a co chysta Seznam.cz 1. dil

Publikováno: 20. Leden 2009

Seznam článků:

  1. Kudy se vydava a co chysta Seznam.cz 1. dil ( zadani 1. – 5. )
  2. Kudy se vydava a co chysta Seznam.cz 2. dil ( zadani 6. – 10. )
  3. Kudy se vydava a co chysta Seznam.cz 3. dil ( zadani 11. – 20. )
  4. Kudy se vydava a co chysta Seznam.cz 4. dil ( zadani 21. – 24. )

Jak jiste vite fulltextove vyhledavace, mezi ktere u nas patri nejznamejsi a nejpouzivanejsi Google a Seznam se musi stale vyvijet. Toto vychazi z jednoduche potreby a to nabidnuti uzivatelum ty nejrelevantnejsi vysledky.

Zakladni potrebou v tomto duchu je odfiltrovat velke mnostvi SPAMu, se kterym dnes a denne oba tyto vyhledavace bojuji. Seznam dlouhodobe hleda kvalitni programatory a analytiky, aby jeho fulltext byl co nejkvalitnejsi, s tim souvisi i obcasne ne prilis podarene jevy, jako zaokrouhlovani Sranku popripade jine libustky jako nedavne nasazeni lematizacniho slovniku, ci vylepseni relevance vysledku v SERPu  etc.

Kdyz budu mluvit jen o Seznamu, jak jiz napovedel nadpis tohoto clanku. Meli bychom se zamyslet, jak vlastne chce Seznam techto vylepseni docilit, repsektive jak na tom vlastne pracuje. Abychom na toto mohli opovedet musime se trochu zamyslet a zvazit kde takove informace najit. Abych Vam usetril premysleni, prozradim Vam, ze informace jsem nalezl a na zaklade nich nyni pisi tento clanek. Zdrojem pro dalsi radky je vzdy zadani diplomovych praci, ( k 20.01.2009 zneni je dale v textu z kopirovano, aby pri jejich zmenam nedoslo k unikntui vyznamu mych poznamek ) ktere se snazim rozebrat a identifikovat co vlastne na zaklade studie Seznam zamysli.

Co tedy musi z dlouhodobeho hlediska z obecneho pohledu seznam vyresit, respektive kam se chce Seznam ubirat? Je jasne ze pujde cestou algoritmickeho rozpoznavani textu, a dale rozpoznavani specialnich stranek.

1. Smysluplnost vět

Zadání: Na vstupu je dán text, reprezentující jednu českou větu. Cílem je určit, jestli je daná věta smysluplná (správně mluvnicky utvořená) nebo ne. Příkladem nesmysluplných vět je nahrnutí klíčových slov (“rýče, lopaty, bagry a krumpáče“, „přihlásit jméno heslo“ apod.). Příkladem smysluplných vět jsou například věty v tomto zadání.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu klasifikace
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti

Muj rozbor: Timto zadanim dava Seznam jasne najevo, ze v dlouhodobem horizontu nema zajem o vypisy klicovych slov, ktere dost podstatna skupina webmasteru pouziva pro obraceni vysledku vyhledavani ve svuj prospech.  Implementaci teto studie do relity se tak Seznam zbavi dvou podstatnych skupin a to vypisu klicovych slov a MFA tvorenych pomoci automaticky generovanych skriptu, ktere bez znalosti stavby vety pokouseji generovat automaticke texty.

2. Čištění textu web stránek

Zadání: Na vstupu je dána site (soubory URL). Cílem je každou stránku z dané site rozdělit na logicky ucelené části: menu, samotný obsah stránky (text), diskuze… Student se může soustředit na rozpoznání a extrakci jedné vybrané části (např. jen obsahu). Je také možné omezit vstupní doménu z obecných stránek jen na např. blogy, newsy apod., pokud by to vedlo na výrazně efektivnější algoritmy.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti

Reference

projekt Cleaneval: http://cleaneval.sigwac.org.uk/

Muj rozbor: Zde me docela zarazilo rozbor na „blogy, newsy apod.“ mohli bychom se tak domnivat, ze seznam experimentuje s rozpoznavanim typu webu, coz by mohlo, ale na druhou stranu nemuselo byt prinosem, zalezi na tom, jak to v Seznamu pojmou. Obecne zvyhodnoovat urcity Typ webu pred ostatnimi neni myslim moc dobre, zvlaste pak pokud by slo o rozpoznavani na zaklade struktury webove stranky. Mnoho open source projektu se pouziva na generovni dynamickych stranek jineho typu, nez byl primarne urcen a obavam se ze rozliseni tohoto obsahu algoritmicky, nebude dostatecne vykonne. Abych uplne neodbehl od zadani o toto se jiz v Seznamu zdarne pokouseji, takze bych to videl spise jako dalsi level. Samozrejme rozdeleni obsahu na casti je taky sporna, hlavne kvuli nekterym technikam vypisovani obsahu. Zalezi tak samozrejme opet, jak se k tomu v dusledku v Seznamu postavi. Obecne vzato mohlo by to primo ovlivnit samotne kodovani stranek.

3. Klasifikace uživatelských dotazů

Zadání: Do fulltextového vyhledávání chodí různé typy uživatelských dotazů. Úloha má dvě části

  • navrhnout užitečné obecné kategorie dotazů (např. dotaz na produkt, na organizaci, lokaci, dotaz na text písničky, navigační/informační dotaz atd.)
  • uživatelské dotazy do těchto (nebo aspoň pár vybraných, nejfrekventovanějších) kategorií automaticky klasifikovat

Práce předpokládá průběžnou spolupráci a konzultace s firmou Seznam.cz.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti
Muj rozbor: Tato problematika jiste ma svujvyznam, ktery jiz davno pochopil google, rozzliseni samotneho dotazu totiz samo o sobe predstavuje tridici algoritmus, ktery sam osobe dokaze zredukovat velkou cast moznych vysledku vyhledavani. Docileni daneho problemu ma vice barier, nez by se mohlo zdat, a kategorizace neni jednoducha na nekolik malo typu, natoz na vsechny mozne ve fulltextu. Kazdeho jiste napadne nejzakladnejsi mozny pristup katalogizace danych dotazu, tedy nekonecne obnovovani databaze vyznamoveho slovniku, ktery by nasledne fulltext pouzival pri vyhodnocovani. V tomto jiz ale narazime na problem obsahlosti takovehoto slovniku a kosatost cestiny… Mohlo by podobne reseni vest ke specifikaci vyhledavaneho dotazu, k cemuz jiz pristoupil Google u sveho vyhledavace obrazku, kde nabizi podtypy obrazku aktualne ( obliceje, obsah – zpravy, klipart, kresby, obsah – fotografie ) .

4. Zjištění kategorií produktů na Zboží I.

Zadání: Na vstupu je dána kolekce produktů, charakterizovaných svou cenou, textovým popiskem, obrázkem… Úloha má dvě části

  • automaticky zjistit, jaké typy produktů se v kolekci vyskytují a jaké mohou být jejich parametry. Například máme misky a ty můžou být keramické, aluminiové, prachové, můžou mít různé velikosti nebo máme paměti, které mohou mít velikost 2GB, 4GB, 8GB.
  • vybrané typy produktů a jejich parametrů automaticky detekovat ve vstupní kolekci reálných produktů

Práce předpokládá průběžnou spolupráci a konzultace s firmou Seznam.cz.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti

Muj rozbor: Dale…

5. Zjištění kategorií produktů na Zboží II.

Zadání: Cílem práce je automatizovaně vytvořit katalog produktů, které poskytují e-shopy. Výstupem je tedy graf, kde uzly odpovídají navrženým kategoriím (bílé zboží, pračky) a hrany vztahům mezi nimi (pračky je podkategorie bílého zboží, obaly na mobil je příslušenství mobilů).Jako vstup může student použít např. dílčí katalogy tak, jak je používají jednotlivé e-shopy.

Práce předpokládá průběžnou spolupráci a konzultace s firmou Seznam.cz.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. popis získávání vstupních dat
  3. návrh a popis algoritmu tvorby katalogu
  4. prototypová implementace algoritmu
  5. podrobné vyhodnocení úspěšnosti nad vstupními daty
Muj rozbor: Zamerne jsem muj rozbor spojil, nebo kategorie produktu zbozi tematicky s mym clankem moc nesouvisi, i kdyz jen zdanlive. Tyto zadani vsak pro nas jakozto webmastery nemaji moc vyznam a jde spise o zamysleni se nad vnitrni strukturou samotneho vyhledavace zbozi a jeho katalogizace do spravnych kategorii. Rozhodne jde o zajimavy problem, ale pro nas jako uzivatele ale i prodejce bude dalsi cleneni a relevantnejsi kategorizace jen ku prospechu.
Vzhledem k poctu zadani, jsem se rozhodl clanek rozdelit do vice casti, tedy muzete pokracovat na druhy dil clanku o tom co chysta Seznam.cz

Komentáře, přidejte svůj názor!

  1. |

    [...] Kudy se vydava a co chysta Seznam.cz 1. dil ( zadani 1. – 5. ) [...]

  2. |

    [...] Kudy se vydava a co chysta Seznam.cz 1. dil ( zadani 1. – 5. ) [...]

  3. |

    [...] Kudy se vydava a co chysta Seznam.cz 1. dil ( zadani 1. – 5. ) [...]

  4. |

    ad 1) A tak budeme všichni předělávat patičky, aby dávaly z gramatického hlediska smysl :-D

  5. |

    To jsi vystihl docela presne, ale to bude taky eliminovano…

  6. |

    mam jednu skromnu prosbu.

    pri pridavani odkazov na vybrali.sme.sk by si mohol odstranovat z titulku nazov tvojho weblogu? Nemam proti nemu nic ale je tak uzasne komplikovany, ze znizuje pochopitelnost samotneho nadpisu :-)

    je to viacmenej dobra rada v tvoj prospech, takze sa nemusis nastartovat a zacat s vyhovorkami ci protiutokom alebo dovodmi preco to je tak dobre :-)

  7. |

    Zdravim, nevidim duvod to mazat, co je za znakem „|“ k titulku nepatri a je to obecne uznavane pravidlo .o) A nic ve zlem, ale na svem blogu si dovolim odpovedet na vsechny komentare, i ty, ktere o odpoved nestoji, zrovna jako ten tvuj – to jiste chapes :o)

Komentáře, přidejte svůj názor!

You must be logged in to post a comment.

¨