msgbartop
Weblog, který píše Ondřej Baar o internetovém marketingu, copywritingu a SEO, aby pomohl všem co mají zájem o pomoc
msgbarbottom



Kudy se vydava a co chysta Seznam.cz 2. dil

Publikováno: 20. Leden 2009

Seznam článků:

  1. Kudy se vydava a co chysta Seznam.cz 1. dil ( zadani 1. – 5. )
  2. Kudy se vydava a co chysta Seznam.cz 2. dil ( zadani 6. – 10. )
  3. Kudy se vydava a co chysta Seznam.cz 3. dil ( zadani 11. – 20. )
  4. Kudy se vydava a co chysta Seznam.cz 4. dil ( zadani 21. – 24. )

Tento clanek je pokracovanim meho uvodniho clanku na tema co chysta Seznam.cz 1. dil. Kvuli rozsahlosti tematu, jsem si dovolil rozdelit jej na vice casti. Tedy pokracuji v rozboru…

6. Stejně znějící slova

Zadání: Na vstupu je soubor textových frází a cílem je určit, které z nich budou znít po vyslovení v češtině stejně. Jde tedy o rozlišení homofonních frází.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti

Muj rozbor: Po precteni tohoto zadani, jsem nejprve byl trochu prekvapen a nebyl jsem schopny rozlustit co tim Seznam sleduje v oblasti vyhledavani. K one podobnosti slova a rozlseni ruznych tvaru slouzi lematizace. To jak slovo zni napriklad slova „my“ a „mi“ z tohoto hlediska jde tedy spise o pravopisny zapis daneho slova, ktery chce seznam rozlustit. Dulezite je, ze je lze rozeznat v kontextu, tedy stejne znejici slovo ma jiny vyznam v jinem kontextu. V seznamu dle zadani chteji urcovat, ktera slova budou stejne vyslovena v jakemkoliv kontextu, coz me prijde docela nelogicke k vyse zminenemu. V tomto Vas vyzyvam k zamysleni a rozboru pod timto clankem.

7. Rozpoznávání množství reklamy na stránce

Anotace: Některé webové stránky obsahují reklamu. Pokud je na stránce málo informací a hodně reklamy, tak jsou uživatelé z nalezené stránky zklamáni. Cílem práce je zjistit, jak posuzovat množství (kontextové, bannerové) reklamy na webové stránce ve srovnání s její informační hodnotou. Navrhnout robustní algoritmus vyhodnocující množství reklamy. Uplatnění práce je ve vyhledávačích, které potom budou moci penalizovat „příliš“ reklamní stránky. Pozn: Někteří lidé vytváří webové stránky jen kvůli zisku z kontextové reklamy. Optimalizují stránky tak, aby se dostali na první místa ve výsledcích ve vyhledávačích. Na druhou stranu někdy je reklamy až příliš a informační hodnota stránek je velmi nízká (často je text okopírován odjinud).

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti

Nápady:

  • Posuzovat kontextovou reklamu podle množství textu (text kontextové reklamy vs. hlavní text bez menu a spol).
  • Posuzovat kontextovou reklamu podle velikosti plochy v prohlížeči (jako na screenshotu, tj. bez rolování stránky).

Muj rozbor: Toto zadani je podle meho jasne narozdil od predesleho hned. Premira reklamy na uzivatele nepusobi dobre a evidentne Seznam chce uzivatele pred strankami preplnenymi reklamami chranit. Veta, ze uzivatele stranky jsou zklamani mi prijde nadmiru alibisticka a spise ukazuje na to, ze seznam chce zvyhodnit stranky s mensim obsahem reklamy mozna proto aby mel sam lepsi zisky z reklamy. Kdyz se na to podivame trochu globalneji a seznam prinuti webmastery umistovat mene reklamy, zakonite musi stoupnout jeji cena. Coz v dlouhodobem meritku bude mit mozna vice lepsich dopadu nez kratkodobych spatnych dusledku. Otazkou je, jestli na to pristoupi i Google, pokud ano, nebude jina moznost nez zmensit pocet reklamnich pozic. Kazdopadne by to mohlo mit dobry efekt v tom, ze bude vim dal vice inzerentu mit zajem o unikatni pozice a lepsi stranky zavedou poradniky na jejich objednavky. Hezka idea, ale jaka bude pravda jeste uvidime rozhodne by to zpusobilo mensi prisun prace pro obchodniky, kteri by v pripade terminovanych reklam nemeli co prodavat, malo kdo si predkoupi reklamu v tak zivem segmentu jakym je internet moc dlouho dopredu.

8. Rozdělování webových stránek do tříd (eshop, blog, news,…)

Anotace: Vyberte si jen jednu třídu, na kterou se zaměříte. Například „blog“. Cílem je navrhnout a vypracovat algoritmus, který dostane URL a rozhodne, jestli stránka patří do vybrané třídy. Tedy například, jestli je stránka „blog“.
Zásady pro vypracování: Prozkoumat webové stránky, které jsou „blog“. Zjistit, co je pro ně typické. Potom navrhnout kritéria, podle kterých se dá rozhodnout, jestli je daná stránka blog (například analýzou struktury stránky, analýzou okolí stránky (stránek, na které se odkazuje, a vůbec vše, co vás napadne). Také si rozmyslet, s čím bychom si mohli blog splést.

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti
Muj rozbor: Zde narazime na tema, ktere jsem jiz rozebiral v predesem clanku. Text kopiruji i sem:  „Zde me docela zarazilo rozbor na „blogy, newsy apod.“ mohli bychom se tak domnivat, ze seznam experimentuje s rozpoznavanim typu webu, coz by mohlo, ale na druhou stranu nemuselo byt prinosem, zalezi na tom, jak to v Seznamu pojmou. Obecne zvyhodnoovat urcity Typ webu pred ostatnimi neni myslim moc dobre, zvlaste pak pokud by slo o rozpoznavani na zaklade struktury webove stranky. Mnoho open source projektu se pouziva na generovni dynamickych stranek jineho typu, nez byl primarne urcen a obavam se ze rozliseni tohoto obsahu algoritmicky, nebude dostatecne vykonne. Abych uplne neodbehl od zadani o toto se jiz v Seznamu zdarne pokouseji, takze bych to videl spise jako dalsi level. Samozrejme rozdeleni obsahu na casti je taky sporna, hlavne kvuli nekterym technikam vypisovani obsahu. Zalezi tak samozrejme opet, jak se k tomu v dusledku v Seznamu postavi. Obecne vzato mohlo by to primo ovlivnit samotne kodovani stranek.“ Jen doplnim, ze v tomto je uvedena podstatna veta „s cim bychom si mohli blog splest, ktera potvrzuje me obavy, prave ze zameny dokumentu, a jeho spravneho urceni, a nasledne pravdepodobne prirazeni priority. Je potreba se zamyslet, jestli je opravdu vhodne urcovat hodnotu textu na zaklade kategorie, do ktere dany text spada. I nekteri blogeri pisi velmi zajimave a odborne clanky. To ze pro jejich publikaci zvolili prave blok, by nemelo nijak snizovat jejich kvalitativni hodnoceni ani v ramci vyhledavace na zaklade typu prezentacni formy!

9. Klasifikace témat dokumentů/site

Anotace: Pokud uživatel zadá do vyhledávače dotaz, např. „koleje“, tak může mít na mysli několik různých témat. Např. „studentská ubytovna, železniční koleje, stopa po průjezdu vozidla“. Cílem práce je vymyslet efektivní algoritmus pro online clusterizaci. Algoritmus dostane 1000 výsledků (URL), které vyhledávač našel a rozdělí je do skupin podle toho, o jakém typu kolejí pojednávají.

Uživateli jsou potom prezentovány výsledky tak, jak je známe, ale také seznam možných témat/skupin.

Zásady pro vypracování: Nastudovat literaturu a články o „web/document clustering“. Seznámit se s nejnovějšími výsledky a přístupy. Naprogramovat algoritmus na clusterizaci. Algoritmus dostane výsledky z vyhledávače (Seznam.cz nebo Google.cz) a rozdělí je do skupin (clusterů).

Požadovaný výstup:

  1. analýza problematiky, shrnutí možných přístupů
  2. návrh a popis algoritmu
  3. prototypová implementace algoritmu
  4. podrobné vyhodnocení úspěšnosti

Reference:

  • WebClust.com (online clustering search engine)
  • Scatter/Gather
  • Grouper
  • Carrot2
  • Vivisimo
  • Mapuccino
  • Correlation-based Document Clustering using Web Logs (Su et. al. 2001)
  • SHOC
Muj rozbor: V tomto tematu se jiz dostavame na ony sofistikovane vyhledavace schopne rozlisit kontext tematickeho vyhledavani. Tohle je podle me nevyhnutelny pristup do budoucna, kdy bude tuto kosatost cestiny ovladnout a dat ji spravnou formu rovnez ve vyhledavani. Dovolim si rict, ze v tomhle ma Seznam jednu z nejvetsich vyhod, protoze Google je priznejme si opravdu velky moloch a tezko bude schopen investovat cas do vyvoje poznani jednotlivych jazyku a i kdyby ten cesky jiste nebude prioritni. Jsme prece jen mala zeme na to aby pro nas delali vyhledvani. Tohoto by se nejenze mel Seznam chytnout ale dokonale toho vyuzit ve svuj prospech. Pokud totiz dovede toto zadani kavalitne vyresit, je mozne ze google nebude schopen na to dostatecne rychle zareagovat a souboj vyhledavacu by skoncil vitezne pro Seznam. Pokud fulltextari minamlne trochu premysli jako ja, nedivil bych se,  kdyby jiz neco podobneho nemelo svuj realny vysledek. A pokud jeste zadny takovy algoritmus v cestine neni, meli by si honem rychle pospisi s jeho realizaci! Duvody jsou zrejme…

10.Vysokozatezove distribuovane uloziste dat

Zadání: Navrhněte vysokozátěžové distribuované úložiště velkých objemu dat s vysokou odolností proti výpadku jednotlivých uzlů distribuovaného systému a velmi rychlým přístupem k uloženým datúm. Systém by neměl ukládat stejná data vícekrát a měl být mít minimální přidány síťový traffic mezi uzly. Implementujte prototyp takovéhoto systému a ověřte jeho funkčnost v praxi. Navržený systém porovnejte s jedním nebo více již existujícími řešeními distribuovaného ukládání dat.
Muj rozbor: Seznam se cim dale vice potyka s problemem replikace dat, mezi jednotlivymi uzly distribuovaneho systemu, nekdy tyto proniknou az do vysledku vyhledavani, coz jiste nenechava managery Fulltextu Seznamu chladnymi. Pozadavek na distribuci bez sitoveho trafficu mezi uzly, nebo lepe receno dle zadani minimalni, bude asi jen tezko dosazitelny uz vzhledem k obemu a velikosti duistribuovaneho systemu. zarazi me docela take to, ze system by data nemel ukladat vicekrat. Mozna by bylo dobre jeste zvazit vhodny pristup a zda neni pozadavek tohoto typu pro fulltextove vyhledavace zcestny. Podivejme se jak to vyresil Google – spoustou vypocetnich farem, ktere jsou propojeny ridicim mechanizmem. Nerikam, ze toto reseni je nejlepsi, ale rozhodne muze nabidnout minimalne zaklad pro lepsi system alespon co se tyka pohledu energeticke narocnosti a vykonnosti celeho systemu.
Timto bych ukoncil druhy dil tohoto obsahleho clanku a pozval bych Vas k precteni jeho treti casti.

Komentáře, přidejte svůj názor!

  1. |

    [...] Kudy se vydava a co chysta Seznam.cz 2. dil ( zadani 6. – 10. ) [...]

  2. |

    [...] Kudy se vydava a co chysta Seznam.cz 2. dil ( zadani 6. – 10. ) [...]

  3. |

    ad 6) myslím, že jde o něco, co nezvládá současný lemaizátor. Například slova electroworld a elektroworld. Na slovo elektroworld najde seznam jen MFA. A takových slov jsou mraky. Většinou se jedná o překlepy, ale jsou i úmyslné manipulace, kterými se hledající přes našeptávač přivede na slovo, které by třeba sám od sebe nezadal.

    ad 7) Jestli se tohle zavede, tak to aby si MFAčkaři dávali reklamy do nějakého if IP seznam = schovej reklamu ;-)

    ad 8) Otázka je, jak by se podobná funkce dala použít. Buď přednastavené hledání v blozích, shopech nebo zprávách. Druhá možnost by byla v odlišném přístupu seznamu k těmto typům stránek. Např newsy by se automaticky crawlovaly častěji, blogy by měli zvýšené hodnocení pro slova, která jsou o hledání informací a shopy by třeba měly lepší hodnocení na konkrétní produktová slova.

    ad 9) Tak třeba ty koleje by se daly rozpoznávat z kontextu. Hledám li koleje praha, tak mi asi nejde o železnici. Naopak když hledám rozchod kolejí, asi se nechci ubytovat. Lze to použít jednak pro zvýšení relevance a také, pokud si s tím algoritmus automaticky neporadí by šlo u výsledku vyhazovat něco jako: „Něměli jste na mysli vysokoškolské koleje?“ Nebo vyhodit soubor frází, které se s tím slovem hledají. U některých hodně hledaných slov to google dělá. Např. http://www.google.cz/search?hl=cs&q=nábytek&btnG=Vyhledat+Googlem&lr=&aq=f&oq=

  4. |

    Dekuji za bleskovy komentar.

    6. urcite ano, ale nezdal se mi ten obraceny pristup k problemu, a to zjisteni vice slov ktere stejne zni… I kdyz logicky, o my msmysl, pro fulltext, nebot ten ma seznam vyhledavanych frazi a diky tomu muze urcit, ktere slovo ma kyzeny vyznam. akorat se obavam prave toho kontextu. Kazdopadne diky za koment tohle je mi uz jasnejsi.

    7. Doufam, ze se to zavede, ale bohuzel to reseni ala ip – schovej reklamu, bude jiste pouzivane, takze seznam s tim nepochodi, pokud nebude mit tajne „neproflaknute“ boty.

    8. Jak pisu clanku, mam prave obavu z pouziti seznamu. Snad to zvladnou dobre, a budou delat rozsirene vyhledavani… U toho zvyseni relevance, me spise zajimaji reakce uzivatelu na zbozi nez vetsinou samotne zbozi, na to pouziju radeji vyhledavac zbozi a ne fulltext, mozna by je mohli oddelit…

    9. Je pravda ze to google u nekterych frazi dela, ale zase – jak moc dobre to zvladnou v Seznamu..? :o)

Komentáře, přidejte svůj názor!

You must be logged in to post a comment.

¨