Přejít na hlavní obsah
AKTUALITA: Chladno a místy sněhové přeháňky, v noci Moravě a ve Slezsku trvalé sněžení

Diskuse o počasí Zápis a vyhodnocení počasí

# 13.01.2024, 10:02

Dobrý den zdravím všechny, mám na vás dotaz ohledně zápisu a vyhodnocení počasí. Výstup dat z meteo stanice mám v textovém souboru á používám pro vyhodnocení těchto dat program excel. Mám pouze základní znalosti v práci v excelu, tak jsem prozatím si udělal pouze základní vyhodnocení, jako například průměry, max a min. atd. Může mě někdo v tomto poradit popřípadě poskytnout odkaz na svou nějakou šablonu, kde bych moji statistiku mohl více rozvinout včetně grafů atd? Popřípadě používá někdo něco jiného pro vyhodnocení jak excel? Děkuji všem za za pomoc.

325
# 14.01.2024, 00:16

kammik1

Ahoj,

Zpracovani dat o pocasi v Excelu vc. tvorby grafu delam uz prez 20 let. Pouzivam excelovskou predlohu, do ktere vlozim data za jeden rok a vypocte mi veskerou statistiku - prumerne, nejvyssi, nejnizsi hodnoty, pocty dnu s danou charakteristikou. Pred 20 lety jsem rucne napsal vzorce pro vypocet statistiky pro jednotlive mesice a cely rok. A take grafy s preddefinovanym formatem, zobrazujici mesicni a rocni data. Soucasti prelohy XLS souboru je i podminene formatovani - zabarvi se maximalni-minimalni hodnota, nebo hodnoty prekracujici urcitou mez.

Pro prestupny a neprestupny rok jsou dve ruzne predlohy, lisi se vzorce, zdrojove pole dat pro grafy, atd. Takze mam predlohy dve. A pro vypocet poctu jednotlivych dni jsem si vytvoril i ruzne predlohy pro ruzne typy klimatu. A stehne ta jako jsou predlohy pro zpracovani jednoho roku, udelal jsem si i predlohy pro zpracovani dlouho-leteho obdobi.

Pouzivam stary Excelovsky format - pripona XLS. Tedy verzi, kterou pouzivaly Office 2003 a starsi. A to z nekolika duvodu. Jednak jsem s temito formaty (Excel 1998, 2000, XP, 2003) zacinal pri uplnych zacatcich a PC. A jednak tyto soubory a programy jsou delane na slabsi P, jake bylo pred 20+ lety. Takze na novych PC byt s minimalnim vykonem na dnesni dobu jedou velmi svizne. U state verze Excelu navic je pomerne jednoduche formatovani co do poctu bare a i Printscreen - kopie grafu pak jako obrazek PNG ma velikost jen 10-20 kB. Jeste navic verez XLS neni komprimovana a proto jde velke mnozstvi souboru zabalit do pomerne maleho archivu.

Stare formaty XLS (Office 2003 a starsi) se daji otevrit i novou verzi MS Office a take se v tomto formatu daji ukladat. I na Linuxu Libre Office umi tyto formaty otvirat-ukladat. Ale u otevreni-ulozeni v LibreOffice se spatne zobrazuji napr. specificke slozitejsi formaty grafu.

U stare verze XLS (Office 2003 a starsi) je jeden problem - maximalni pocet sloupci je 256 (2na8) a maximalni pocet radku je 65536 (2na16). Celkovy nejvyssi mozny pocet bunek je 16 777 216 (2na24 - stejny je i pocet barev u JPG obrazku). U dennich dat ten pocet radku staci temer vzdy, i v pripade datove rady 100 let dlouhe, nebo i delsi. Ale u Klementinske rady (249 let) uz pocet radku nestaci. A ten pocet sloupcu (256) muze byt omezujici v pripade rozsahlych statistik. V pripade dat po hodine, 3 ci po 6 hodinach uz je ten limit 65536 radku problem i u kratsich rad (v pripade dat po hodine se tam nevejde ani 10 let).

Novy format XLSX od Office 2007 a novejsi uz se sam komprimuje - tento soubor je i archivem. To ma vyhody - ze samotny soubor je mensi, nevyhody - moc dobre se neda komprimovat vice souboru na raz. U novejsich Office - Excell XLSX format je vice barev a moznosti formatovani, vetsi pocet radku a sloupu, vice moznosri formatu grafu. Ale novy format Excelu ma i vyssi naroky na vykon PC (u beznych souboru nic dramatickeho), obrazek udelany z grafu jako PNG je take vetsi.

V Linuxu pouzivam Libre Office. Umi otvirat i ukladat XLS i XLSX ale vysledek se muze lisit od originalu. Libre Office maji vlastni format ODS. U Libre Office je take soubor komprimovany - mensi, coz na za nasledek nemoznost dobre komprese u vice souboru najednou. A obrazek udelany z grafu ma take vetsi velikost. Pocet radku a sloupcu je velky, ani nevim limit (mozna 1024 resp. 2na10 sloupcu a 1048576 resp. 2na20 radku). Narozdil od stareho Excelu je potrebny vypocetni vykon vetsi, ale u beznych souboru nic dramatickeho. Zbytecne moc CPU bere zobrazovani grafu. U velkych souboru, jako rozsahla statistika cele Klementinske rady je uz nejaky ten vykon PC potreba. Pokud ten muj soubor Klementinske Statistiky, co jsem vytvoril, budete otvirat na hodne slabem PC, doporucuji udelat si kafe, nez se to otevre. Pri opravdu rozsahle statistice (vice stanic najednou, velka analyza dat z Ogimetu) v Libre Office tabulkovem kalkulatoru krome procesoru bude potreba i vyssi pamet RAM. Treba veskera terminova data z Ogimetu v CR, prez 35 stanic a data vetsinou po hodine, uz datova rada prez 24 let. S dostatecnym vykonnem CPU a velikosti RAM se to zvladne.

Textove soubory TXT nebo CSV (zde je oddelovac datovych poli, casto strednik) take jdou otevrit v LIbre Office tabulce, starem i novem Excelu. Neni to problem. Do tecto formatu (prosty text) lze i ukladat.

Gnuplot funguje v Linuxu i ve Windows, hodi se pro aoutomatickou tvorbu vetsiho mnozstvi grafu. Ale neni to tak presne definovane, jaky format pouzit. V Excelu se da format naklikat, ale kazdy graf se tvori rucne zvlast. V Gnuplotu pak jsem udelal grafy pro rosahle databaze Ogimet nebo Tutiempo. Problemem je nejaka nepravidelnost v datech a pak se ten graf nepovede.

Ukladani obrazku PNG 8 bit bez dirttherace - tedy bez umeleho doplnovani a mixovani barev pri prepoctu z 24-bit do 8-bit barevne hloubce. PNG komprese maximalni (9). Absolutni optimalni komprese PNG je u kazdeho obrazku jina a muselo by se automaticky zkouset ze vsech moznosti, co je nejlepsi. Rozdil by byl stejne minimalni. 8bit hloubka PNG s maximalni kompresi bez bez dirttherace[ (dulezite) je optimalni reseni pro minimalni velikost souboru. Stary XnView umel dirttheraci vypnout, novy to neumi. Mam schovanou starou verzi. V Linuxu pak pouzivam automaticky ImageMagick - Convert v terminalu.

Zdrojova data jsou casto html stranky (napr. Ogimet, Tutiempo) a z velkeho mnozsti stranek se XTT data musi nejak dostat automaticky. Nejdri se samotne stranky musi stahnout postupne a s prodkevami, aby to nepretizilo server. Velke mnozsti html stranek jde snadno zabalit do maleho archivu pomoci 7zip (je i v prikazove radce v Linuxu). Z velkeho mnozstvi html stranek se musi dostat potrebna data. Webove stranky bez obrazku - to je HTML kod. A tento kod jde rozparsovat v Linuxu pomoci prikazu na zpracovani textu-retezce, jako gawk, sed, grep, cut, tr, tail Z bambilionu html stranek z Ogimetu si pak udelam jeden textovy CSV soubor z daty, ktery vlozim do Excelu ci Libre Office, nebo vytvorim grafy v Gnuplotu.

Pri vice-lete datove rade je problem jeste jeden - napsat vzorce pro desitky, stovky let nebo az tisice mesicu napr. v pripade Klementina. Snad to nikoho nenapadlo-nenapadne psat rucne. Vynalezavost a prikazova radka umoznuje vytvorit textovy soubor primo se vzorcema, ktery je vlozen do Excelu ci Libre Office tabulkoveho kalkulatoru.

Samozrejme, jakekoliv moje vytvorene predlohy a statistiky jsou k dizpozici. Aktualne nejde muj web, admina nemuzu chytit. Ulozto take nejde uz. Ale Webshare je stale pouzitelne a v tomto pripade jsou data zcela legalni (licence GNU).

325
# 14.01.2024, 00:27

Vysledky jsou patrne napr. zde (projekty zalozene na tabulkovem kalkulatoru):

https://diskuse.in-pocasi.cz/tema-10-7086-2023_nej...
https://diskuse.in-pocasi.cz/tema-10-5658-Nejvyssi...
https://diskuse.in-pocasi.cz/tema-10-4723-Klementi...
https://diskuse.in-pocasi.cz/tema-10-5498-Hurbanov...
https://diskuse.in-pocasi.cz/tema-10-4925-Praha_Li...
https://diskuse.in-pocasi.cz/tema-10-5489-Analyza_...
https://diskuse.in-pocasi.cz/tema-10-5264-Praha_Li...
https://diskuse.in-pocasi.cz/tema-10-4885-Rekordni...
https://diskuse.in-pocasi.cz/tema-10-4817-Velky_pr...
https://diskuse.in-pocasi.cz/tema-10-4816-Maxima_v...
https://diskuse.in-pocasi.cz/tema-10-4806-PROJEKT_...
https://diskuse.in-pocasi.cz/tema-10-4741-GSOD-Tut...

U vsech techto projektu je Excell a nebo Libre Office velkou soucasti a nutnosti (slo by to i v necem jinem, ale nemam skusenosti). Vyhoda je u tabulkoveho kalkulatoru moznost setridit data podle hodnoty v urcitem sloupci sestupne nebo vzestupne.

I samotne vyhodnocovani jednotlivych mesicu, tam je take vyznamnou soucasti tabulkovy kalkulator (Excell nebo Libre Office). To same plati i pro rocni sumace a statistiky, pocty urcitych dni, a dalsi.

325
# 14.01.2024, 00:33

Tady je videt v tomto tematu:
https://diskuse.in-pocasi.cz/tema-10-3958-Tropicke...

U prispevku z roku 2016-2017 graf udelany v novem Excelu (Office 2007 a novejsi, format XLSX) a pak dole z roku 2018 grafy vytvorene v Libre Office a navic na velmi slabem PC s 32-bit Ubuntu. A obrazky jsou pomerne velke a barevna paleta nic moc. Nebyla vypnuta ditherace u tech grafu u prispevku z roku 2018.

# 14.01.2024, 07:07

Zdravím, díky za obsáhlé odpovědi i s příkladem zobrazení. Je to zajímavé počtení i když u více technických věcí nejsem moc v obraze, jak jsem psal v úvodu, že v excelu nejsem moc zdatný aspoň doposud. Snad se to postupně zlepší. Chtěl bych se ještě něco zeptat, ale to již napíšu do SZ. Prozatím díky

# 14.01.2024, 08:45

kammik1
Na vyhodnocení dat lze teď použít i ChatGPT - když mu pošlete data a napíšete, co z nich chcete, tak to vytvoří. V placené verzi umí kreslit i grafy. Ve verzi zdarma by dokázal spočítat různé průměry, najít minima a maxima.

# 14.01.2024, 08:58

A pak jde s daty dále pracovat příkazy na něj :) Graf tak můžete dále obohatit.

Další příkazy - průměry, max a min
Doplnění dne a noci
Doplnění další dat - tady už vytvořil pěkný komplexní graf (ale trvalo mu to asi 2 minuty)
325
# 15.01.2024, 01:14

XLS resp. ODS soubory s s dennimi daty a statistikou 2000-2023 jsou tady:
https://webshare.cz/#/file/163g9foRfO/2000-2023-cz...

K dizpozici pro volne pouziti - licence GNU.

Jedna se o soubory s dennimi daty z vybranych stanic z Ceske Republiky a Slovenska plus Polskou Snezku. V pripade SYNOP stanic je denni sumace udelana 23-23 UTC, tj. 00-24 zimni cas SEC, priblizne odpovidajici Mistnimu Slunecnimu casu MST. Jsou spocteny prumery, maxima, minima, oznacen rok s nejvyssi a nejnizsi hodnotou, dale jsou spocteny pocty dni s danou charakteristiku (Arkticke, ledove, mrazove, letni, tropicke atd.). Pro vypocet poctu jednotlivych dni je v listu hodne na pravo velke pole jednicek a nul.

Data ze stanic jsou ve formatu XLS - stara verze MS Office do roku 2003. Upravovana je ale v Linuxu v Libre Office, tak formatovani nemusi byt 100 %, blblo u grafu, a tak jsou tyto verze bez grafu. Soubor s tabulkou rocnich prumernych teplot a porovnani rozdilu mezi stanicemi je ve formatu ODS - Libre Office tabulkovy kalkulator (jde otevrit i v novejsi verzi excelu). Dale jsou k dizpozici CSV soubory - to jsou textove soubory bez formatovani, data oddelena strednikem.

Pocet chybejicich dat je urcen podle dni s nulovou amplitudou - prazdne pole ve sloupci teplotni amplitudy. Kdyz bych tam nechal vypocet amplitudy a hodnotu 0, zapocitavalo by se to do statistiky. Takhle tam je prazdne pole - pocita se do chybejicich dat, ale nepocita se do statistik. Prazdne pole teplotni amplitudy je vzdy, kdyz chybi udaj Tmax nebo Tmin nebo oba.


U Prahy Klementina a Prahy Libuse je take k dizpozici teplotni normal pro kazdy den v roce a odchylka od normalu. Teplotni normal pro Klementinum je urcen podle dat ECAD 1775-2004 a z toho je urcen teplotni normal pro kazdy den v Praze Libusi, po odecteni rozdilu dlouhodobych prumeru Klementinum-Libus. Ne uplne presne, ale datova rada z Libuse je prilis kratka.

Samozrejme je mozne do predlohovych souboru vlozit i data z jine stanice. Ale pozor, aby nechybely radky k urcitym dnim. Pak by cisla radku vs. datumy nesedely a ve statistikach by byla chyba. Vypocet amplitudy a odchylky od normalu - to se vypocte roztazenim pole vzorcu v Excelu. Ale rucne se pak musi vymazat pole, kde chybi zdrojova data Tmax-Tmin-Tavg. V techto polich je vypocet amplitudy a odchylky od normalu pochopitelne spatne. A pripade jine stanice - ten teplotni normal a odchylka od normalu pochopitelne nesedi. Proto je potreba si vybrat pred lohu bez teplotniho normalu a odchylky od normalu.

Zdroje dat:
Praha Klementinum – denni data na chmi.cz
Sudomerice – meteotom.cz
Kunovice – kesyl.unas.cz TXT-CSV soubor

Ogimet SYNOP denni sumace 23-23 UTC:
11520 Praha Libus CZ
11509 Doksany CZ
11624 Caslav CZ
12512 Sniezka PL
11858 Hurbanovo SK
11930 Lomnicky stit SK

V pripade Klementina zatim nejsou k dizpozici data za rok 2023, v souboru chybi.

325
# 15.01.2024, 01:57

In-počasí
S chat GPT zkusenosti nemam, ale je to vykonny nastroj obecne na vsechno. Tvorbu grafu zvladne taky, ale je to jedna z mnoha obecnych veci. Graf vytvori - ale je to jako pro soucet dvou prirozenych cisel pouzivat ucebnici matematicke analyzy pro vejsku - spravny vysledek, ale pomerne velka vypocetni narocnost.

V Gnuplotu to jde taky, ale horsi je to napr. se specifikaci datumu, oznaceni zacatek, konce dne. To poradne nevim jak na to.

325
# 15.01.2024, 02:10

A tady statistiky pro Klementinskou radu podle zdrojovych dat na chmi.cz
https://webshare.cz/#/file/nxKT4Nahvk/klementinum-...

Jednotlive roky ze stanice jsou v samostatnych XLS souborech. Lze vyuzit i jako predlohu pro jinou stanici. Pak jsou tam xls a txt soubory pouzity pro delsi casove useky resp. celou Klementinskou radu.

Velka statistika dat z Klementina byla udelana za obdobi 1775-2018. Hlavni soubor (vytvoren v roce 2019) je pro kompletni statistiku (rocni, sezonni, mesicni), prubezne aktualizovan, ale neni zatim aktualizovano vse.

Soubor je pomerne velky:
Klementinum_Portal_Libre_office_V_2p0_All_Statistics_Massive_File.ods

Format ODS - Libre Office tabulkovy kalkulator. Mel by to otevrit i Eccell, jez umi XLSX (Office 2007 a vyssi). Ale u tohoto souboru s kompletni statistikou otvirani chvili potrva, narocne na procesor CPU i operacni pamet RAM. Coz bezne Excelovske soubory nejsou vubec.

325
# 16.01.2024, 22:44

A tady jsou vsechny moje excelovske dokumenty, od zacatku tvorby priblizne v roce 2002, jez se daji pouzit pro statistiky. Vetsinou jde o statistiku a grafy pro jeden rok, kazdy rok na stanici ma svuj soubor. Toho je tam docela dost, hodne souboru podle urcite predloly. Data za rok 2022 a 2023 zatim nejsou aktualizovana.

Vsechna data - Excell a textove soubory, tvorba od roku 2002:
https://webshare.cz/#/file/TVqyQxY9ld/poc-xlsn-202...

V pripade sondazi z Prahy jsou terminy sondazi 00 06 12 18 UTC, od roku 1973, ale ne vsechny roky jsou sondaze 4x denne. Sondaze 00 UTC a 12 UTC jsou vzdy. To bylo v pripade sondazi potreba zohlednit. U dennich dat je vzdy 365-366 polozek v roce, snadno lze i opravit chybejici data. U dat po hodine, nebo castejsich, casto nektere terminy chybi a pocet polozek v roce a jednotlivych mesicich se lisi. S tim moc dobre pracovat nejde.

Nektere projekty jsou pro delsi casove obdobi, v pripade GSOD dat byla udelana statistika ze stanic 1973-2018 podle Tutiempo, dale pak podle Ogimet SYNOP data k dizpozici od roku 2000, z toho je par projektu, sondazni Wyoming jsou k dizpozici z Prahy Libuse od roku 1973 a je z toho take projekt. A nejdelsi je samozrejme Klementinska rada. Byla udelana statistika podle dat ECAD 1775-2004 a pak podle dat CHMI 1775-2017 resp. 1775-2018 a na aktualizacich se pracuje, S koncem roku 2024 dosahne Klementinska rada delky 250 let.

Format souboru je vetsinou XLS (stary Excell, verze MS Office do roku 2003 - vyhody formatu byly zminene). Dale pak textove TXT-CSV soubory, jdou i v Excelu otvirat, strednik funguje jako oddelovac sloupcu. Par souboru (casto od jinud) je ve formatu XLSX - novejsi verze Excelu od roku 2007. A netere soubory jsou ve formatu ODS - format pro Libre Office, fungujici v Linuxu. Obrazky (grafy a pod). jsou ve formatu PNG s maximalni kompresi a par GIF obrazku - animace.

Nechybi ani datove soubory se seznamy stanic, urcene pro zpracovani v LInuxu a vzorce pouzite do Excelu nebo Libre Office.

Jakykoliv XLS-ODS soubor se statistikou a formatovanim lze obecne pouzit jako predlohu pro jina data z jine stanice. U souboru pro konkretni roky se lisi prestupny a neprestupny rok. A to je treba mit na pameti i pri zpracovani delsiho casoveho obdobi.

Licence GNU - Volne Siritelne

Formaty archivu jsou 7zip, otevrit to umi 7zip i dalsi archivatory, komprese maximalni mozna (rozbalovani vezme kratkodobe (max. na par minut) az 4 GB RAM). Po stazeni doporucuji archiv zkontrolovat, jestli se nekde nestala chyba v prubehu prenosu.

Pro přidání příspěvku do diskuse se prosím přihlaste.