Data z celého světa (přez 16 000 stanic) desítky let do minulosti v jednom archivu:
http://www.uloz.to/7904617/tutiempo-clima-2011-7z
Po rozbalení něco přez 6 GB a okolo 17 000 txt souborů
Zdroj: http://www.tutiempo.net/en/Climate/
Textové soubory jsem vtvořil linuxovým skriptem
Diskuse o počasí Data z celého světa
J, to jest muj prispevek z drivejsi doby pred registraci a taky moje prace. Tutiempo zmenilo kody html stranek tak skripty zde uvedene uz nefunguji, musel jsem tam neco zmenit. Tak jako tak Tutiempo, Ogimet i dalsi meteoweby (napr. freemeteo) pouzivaji databazi GSOD (Global Summary Of Day), kde jsou vsechny ceske synopicke stanice (Tutiempo ma omylem vetsinu ceskych stanic pod Slovenskem, snezka je polska a je pod Polskem). Cela databaze je od Noaa, dostupna na ftp://ftp.ncdc.noaa.gov/pub/data/gsod/. TSU bere jako prumer prez vsechnz hodnoty maxima a minima vetsinou prima, nekdy z hodinovych pozorovani. Jeste rozsahlejsi je databaze GHCN (Global Historical Climatology Network, nad 81000 stanic, GSOD jen cca 17000 stanic), v CR jsou jen 2 stanice z GHCN, Klemeninum a Milesovka. Hodne stanic je z USA. ftp://ftp.ncdc.noaa.gov/pub/data/ghcn/ ftp://ftp.ncdc.noaa.gov/pub/download/ (Supergehcnd). Databaze GDCN by mela byt jeste jina, neni k dispozici. K dispozici je jeste NOAA databaze hodinovych pozorovani v kodu SYNOP ftp://ftp.ncdc.noaa.gov/pub/data/noaa/.
Taky je videt, jak dlouho trva nez se prevede html web do textoveho. Celkem skrypt stahnul cca 200 GB/4 000 000 html stranek, vzniklo 6 GB textu, trvalo to cca 10 dni. Asi tezko si predstavit, jak indexuje a vyhledava Google v celem internetu nebo jak se vyhledava kopie seminarek. Stahnout a projit u nekterych webu text/html obsah je dost zdlouhave a nektere se nesmyslne vetvi. - bezpředmětné. EDIT: odkazy vkládejte prosím přes funkci vložit odkaz, dík. tom-791
Pro přidání příspěvku do diskuse se prosím přihlaste.