msgbartop
Weblog, který píše Ondřej Baar o internetovém marketingu, copywritingu a SEO, aby pomohl všem co mají zájem o pomoc
msgbarbottom



Kudy se vydava a co chysta Seznam.cz 3. dil

Publikováno: 20. Leden 2009

Seznam článků:

  1. Kudy se vydava a co chysta Seznam.cz 1. dil ( zadani 1. – 5. )
  2. Kudy se vydava a co chysta Seznam.cz 2. dil ( zadani 6. – 10. )
  3. Kudy se vydava a co chysta Seznam.cz 3. dil ( zadani 11. – 20. )
  4. Kudy se vydava a co chysta Seznam.cz 4. dil ( zadani 21. – 24. )

Tento clanek je pokracovanim meho clanku na tema co chysta Seznam.cz 2. dil. Kvuli rozsahlosti tematu, jsem si dovolil rozdelit jej na vice casti. Tedy pokracuji dale v rozboru…

11. Odhad návštěvnosti reklamního prostoru a plánování reklam

Zadání: Navrhnout a vyzkoušet algoritmus, který bude z historických hodnot návštěvnosti a dalších údajů reklamních prostorů předpovídat průběh jejich návštěvnosti jeden rok do budoucna včetně udání přesnosti odhadu. Cílem je zpřesnit kvantitativní plánování reklam. Algoritmus by měl být navržen s ohledem na velký počet reklamních prostorů, efektivní uložení a použitelnost výsledků a měl by mít uspokojivou časovou složitost.
Muj rozbor: Toto zadani se u me projevilo jistym pochybovacnym usmevem, v predeslem clanku jsem se nad ochotou inzerentu investovat dopredu urcity obnos jiz lehce zminoval. Myslim, ze zadny sebelepsi algoritus neni schopen zohlednit vsechny faktory, ktere mohou ovlivnit navstevnost jeden rok do budoucna je myslim nemozne a onen algoritmus at uz bude prezentovan, ci vyuzivan jakkoliv pro inzerenta nebude pravdepodobne nijak zasadne vypovidajici. A jeho vyznam bude asi stejny, jako vyklad z kristalove koule potulne cirkusacky. Mozna hazim predcasne flintu do zita, ale navstevnost je velmi vrtkava a i na sebevetsich projekt ma tendenci kolisat, otazkou je zda vyhodneji pro inzerenta, nebo publishera. Ona navstevnost totiz muze skokove stoupat i klesat…

12. Systém na vizuální analýzu webových stránek

Zadání: Dokázat rozpoznat důležitost a typy jednotlivých informací na stránce (obsah, navigace, obrázky) a možnosti využití těchto informací v klasickém fulltextovém vyhledávání (přiblížení robota fulltextu tomu, co vidí uživatel).
Muj rozbor: Nejpostizenejsim internetovym uzivatelem je fulltextovy vyhledavac. Prave tato veta zaznela z ust profesionala na pristupnost a pouzitelnost a ja s ni nemohu nic vic nez pouze souhlasit. Je to tak fulltextovy bot, podle me i timto nejpostizenejsim uzivatelem zustane, dokud nebude schopen rozpoznat obsah obrazku jinak nez z textoveho popisku, ci jinych multimedialnich souboru. Dovolim si zde parafrazovat vetu z velmi zname triologie Pan prstenu: Jen text vladne vsem fulltextum, proc by se jinak jmenoval fulltext ze. :o)

13. SQLbenchmark

Zadání: Seznamte se s aktuální nabídkou nástrojů pro testování výkonu SQL databází. Vyberte vhodný, případně implementujte vlastní nástroj určený pro jednoduché testování výkonu relačních databází. Navrhněte vhodnou datovou strukturu pro provedení testů a připravte relevantní testovací data. Sestavte a vhodně vyvažte sadu dotazů, které prověří výkon databáze z hlediska velkého množství paralelních čtecích operací a zápisových operací tak, aby byla co nejpřesněji simulována reálná zátěž na silně zatížených OLTP systémech. Proveďte test na vybraných databázových systémech, především pak databázích MySQL 5, FireBird, PostgreSQL 8, Oracle XE, DB2 9 Viper, MSSQL2005 Express Edition, případně dalších volně dostupných databázových systémech. Vizualizujte, zhodnoťte a interpretujte naměřené výsledky.
Muj rozbor: Zadani je vice nez jasne a pro mne nema z pohledu Tvorby a optimalizace webovych stranek skoro zadny vyznam. Z uzivatelskeho hlediska je dobre vedet, ze mozna jednou bude v Seznamu vhodne napsana databaze ve vhodnem SŘBD ( System rizeni baze dat ), ve stejne souvislosti si vsak rikam, jestli neni na tohle trochu pozde. Ale pokud povede zmena ke zlepseni budu samozrejme rad. Avsak vice me tizi obava z vhodne implementace, ktera se bohuzel u Seznamu nekdy negativne projevuje. Kdykoliv slysim, ze se na Seznamu neco meni mam dost velke obavy jak to dopadne.

14. Shlukování výsledků vyhledávání

Zadání: Prostudujte aktuálně používané algoritmy pro online shlukování podobných dokumentů a odhalování duplicit při vyhledávání. Navrhněte a implementujte inkrementální shlukovací algoritmus dovolující v krátké době zpracovávat velké množství dokumentů s velkým počtem českých slov. Implementovaný algoritmus otestuje na vhodném vzorku dat a případně porovnejte s jinými algoritmy.
Muj rozbor: Shlukovani dokumentu ve sve zakladni verzi jiz tak nejak funguje, pokud jsem jej dokazal ve vysledcich rozpoznat. nabizeji rekneme serialove vystupy na zadany dotaz, ktere maji vetsinou souvislost s vyhledanym dokumentem v ramci domeny, ale pritom se v zakladnich rysech nelisi, ale lisi se az v tech specifictejsich rysech.  Vysledky podobneho charakteru vitam a jiste tento trend bude pokracovat, obavam se ale nevhodne implementace, ktera by mohla jednou take dopadnout tak, ze jedna stranka v ramci jedne domeny s lehkymi obmenami zaplni podstatnou cast SERPu a nezbyde jiz dost mista pro vysledky z jinych domeny, coz by podle meho nebyl vhodny pristup.
Body 15. az 20. si netroufam kvuli me neodbornosti dale rozebirat, ale pro uplnost vypisu je sem zkopiruji a ocisluji, nebranim se diskuzi nad nad nimi v komentarich. Avsak fundovane odpovedi zrejme neposkytnu. Na druhou stranu je zajimave co Seznam resi se svymi mapami a ze je nenechava jen tak lezet. Jde prece jen o jednu z  nejvetsich casti portfolia Seznamu. Co se tyka zadani 20. to je myslim podano dostatecne vypovidave a nemam k nemu co dodat.

15. Vektorizace obrázků

Zadání: Vektorizovat mapový podklad tvořený:

  1. Soustavou čar, které dle typu mají definovanou barevnost, tloušťku a případně i outline o definované šířce a barevnosti. Čáry mohou být mezi sebou propojeny.
  2. Soustavou ploch s definovanou barevností. Plochy vyplňují prostor vymezený soustavou čar. Plochy mohou mít definovaný outline, ale nemusí. Plochy se mohou sebe dotýkat, jedna plocha může obsahovat N dalších ploch.

Plocha pro vektorizaci nesmí být omezena co do velikosti. Cílem je nadefinovat algoritmus a předvést jeho funkčnost na praktickém příkladu.

16. Oprava ručně tvořené sítě vektorů pro další automatické zpracování

Zadání: Opravit síť vektorů s definovaným typem, která má následující vlastnosti:

  1. zdrojové soubory jsou ve formátu Shape File
  2. v místě křižovatky se vektory, tak jak je kreslič vytvoří,
    • nemusí dotýkat
    • mohou překrývat
  3. křižovatku nelze vytvořit s vektorem typu
    • most
    • tunel
  4. u specifického typu vektorů (např. dálnice) lze křižovatku tvořit pouze s vektorem typu nájezd
  5. vektor jednoho typu může být tvořen nespojitými částmi. Je třeba je spojit a interpolovat, aby v místě dopočítaného spojení nedošlo k ostrému spojení

Kromě opravy je třeba v místě křižovatek vytvořit křižovatku i jako datovou entitu spojující N vektorů. Cílem je nadefinovat algoritmus a předvést jeho funkčnost na praktickém příkladu.

17. Tvorba detailního plánu měst

Zadání: Známe souřadnice zhruba 2,6 milionu adres, o kterých známe:

  1. GPS souřadnici adresy
  2. administrativní parametry adresy (číslo popisné/orientační, ulice, obec, okres, část obce a městská část)
  3. GPS souřadnice adres mají určitou chybovost
    • souřadnice neexistují
    • souřadnice je chybně zaměřena
  4. Čísla orientační (pokud v obci existují) mohou mít lichou hodnotu na jedné a sudou na druhé straně ulice.
  5. Body adres vytváří v rámci ulice souběžné čáry, případně N úhelník v případě náměstí.

Cílem je nadefinovat algoritmus a vygenerovat na základě bodů detailní mapu uliční sítě města. Ulice by měla obsahovat parametr o své šířce.

18. Plánovač tras

Zadání: Máme síť vektorů, které se protínají v uzlech. Každý vektor je ohodnocen těmito údaji:

  • délka vektoru
  • rychlost jakou je možné po vektoru jet
  • údaj zda je vektor jednosměrný
  • údaj zda je úsek placený

Síť vektorů může obsahovat řádově statisíce položek. Vstupní parametry pro hledání trasy:

  • trasu hledat i přes placené úseky – Ano/Ne
  • hledat nejkratší/nejrychlejší trasu

Cílem je nadefinovat algoritmus hledající optimální trasu a ověřit jej na praktické ukázce.

19. Generátor výškového profilu

Zadání: Máme data pro generování 3D modelu terénu s těmito vlastnostmi:

  • přes danou plochu je položena pravidelná čtvercová síť
  • pro každý uzel sítě známe nadmořskou výšku

Model terénu chceme použít pro vygenerování výškového profilu libovolného vektoru/trasy, kterou nad modelem provedeme. Cílem je nadefinovat algoritmus. Vygenerovat a vizualizovat výškový profil trasy na praktické ukázce.

20. Efektivní hashování spamů

Zadání: Cílem diplomové práce je nalézt efektivní způsob tvorby hashů z mailů označených jako spam, ukládání těchto hashů a rychlé hledání v databázi hashů. Dále tento nalezený postup aplikovat v praxi pro detekci již známých spamů. Výsledkem navrhované diplomové práce by mělo být rozšíření spamového detektoru pro freemail. Aplikace bude navržena tak, aby běžela na unixových operačních systémech a byla přenositelná na různé platformy i386, sparc64, amd64, atd. Programovací jazyk bude použit ANSI C, případně některé rutiny mohou být v asembleru. Diplomant by se měl seznámit s používáním extrémně rychlých hashovacích funkci, případně navrhnout vlastní variantu. Dále by měl prozkoumat možnosti vysoce efektivního hledání v obrovských databázích vzorků. Výsledek by měl ověřit na reálných datech v reálném provozu.

Timto bych ukoncil treti dil tohoto obsahleho clanku a pozval bych Vas k precteni jeho ctvrte a posledni casti s poslednimi ctyrmi body a zaverecny zhodnocenim.

Komentáře, přidejte svůj názor!

  1. |

    [...] Kudy se vydava a co chysta Seznam.cz 3. dil ( zadani 11. – 20. ) [...]

  2. |

    [...] Kudy se vydava a co chysta Seznam.cz 3. dil ( zadani 11. – 20. ) [...]

  3. |

    [...] Kudy se vydava a co chysta Seznam.cz 3. dil ( zadani 11. – 20. ) [...]

Komentáře, přidejte svůj názor!

You must be logged in to post a comment.

¨