Monitoring | DevOps Knowledge Base

AIOps — AI v observability a incident response NEW 🟡 Intermediate

AIOps (Artificial Intelligence for IT Operations) je disciplína, ktorá aplikuje strojové učenie, analýzu dát a v poslednom čase aj veľké jazykové modely (LLM) na automatizáciu a zlepšenie IT...

Alertmanager — Správa Alertov a Notifikácií 🟡 Intermediate

Alertmanager je komponent Prometheus ekosystému, ktorý spravuje alerty — grupuje ich, routuje na správne tímy a posiela notifikácie cez rôzne kanály. Bez neho by bol monitoring len pasívne sledovanie...

Continuous Profiling & AI-Driven Observability 🔴 Advanced

Continuous Profiling je prax neustáleho zbierania profilovacích dát z produkčných systémov s minimálnym overhead om. V kombinácii s AI driven observability (AIOps) umožňuje nielen vidieť, čo sa deje,...

DORA Metrics — Meranie výkonnosti DevOps tímov

Ako zistíte, či váš DevOps tím skutočne funguje dobre? Pocitovo? Podľa počtu deployov? Podľa toho, ako často horí produkcia? DORA metriky sú odpoveďou na túto otázku — štyri kľúčové ukazovatele,...

ELK Stack — Elasticsearch, Logstash a Kibana 🟡 Intermediate

ELK Stack je trojica open source nástrojov na zber, spracovanie, ukladanie a vizualizáciu logov. Patrí medzi najpoužívanejšie riešenia pre centralizované logovanie a log analytics. ELK je skratka pre...

FinOps — Cloud Cost Optimization 🟡 Intermediate

FinOps je operačný framework, ktorý spája financie, technológiu a biznis s cieľom maximalizovať hodnotu cloud investícií. Nejde len o šetrenie — ide o informované rozhodovanie o tom, kde a ako míňať...

Grafana — Vizualizácia a Dashboardy 🟡 Intermediate

Grafana je open source platforma na vizualizáciu, monitoring a analýzu dát. Umožňuje vytvárať interaktívne dashboardy z rôznych dátových zdrojov a je štandardom v modernom DevOps prostredí. Grafana...

Grafana Loki — Log Aggregation pre Cloud-Native NEW 🟡 Intermediate

Loki je horizontálne škálovateľný log aggregation systém od Grafana Labs, inšpirovaný Prometheom. Jeho hlavná myšlienka je jednoduchá — neindexovať obsah logov, ale iba metadáta (labels) , a samotné...

Grafana Tempo — Distributed Tracing NEW 🟡 Intermediate

Grafana Tempo je open source backend pre distribuovaný tracing , ktorý sa zameriava na jediný cieľ: ukladať a slúžiť 100 % traces za zlomok ceny iných riešení. Dosahuje to rovnakou filozofiou ako...

Chaos Engineering — Testovanie odolnosti systémov 🔴 Advanced

Chaos engineering je disciplína experimentovania na systéme s cieľom budovať dôveru v jeho schopnosť zvládnuť turbulentné podmienky v produkcii. Namiesto čakania na výpadok ho zámerne vyvoláme —...

Incident Management — Správa incidentov 🟡 Intermediate

Incident management je proces detekcie, reakcie, riešenia a učenia sa z výpadkov a degradácií produkčných systémov. Dobre nastavený proces je rozdiel medzi 5 minútovým fixom a celodenným chaosom....

Log Management — Centralizované Logovanie 🟢 Beginner

Log management je proces zberu, spracovania, ukladania a analýzy logov z celej infraštruktúry na jednom mieste. V prostredí s desiatkami mikroslužieb a kontajnerov je centralizované logovanie...

Monitoring — Prometheus a Grafana 🟢 Beginner

Monitoring je kritická súčasť DevOps. Bez prehľadu o stave systémov nemôžete reagovať na problémy, optimalizovať výkon ani plánovať kapacitu. Prometheus a Grafana tvoria najpopulárnejší open source...

OpenTelemetry — Observability Štandard 🔴 Advanced

OpenTelemetry (OTel) je open source framework a CNCF projekt, ktorý zjednocuje zber traces, metrík a logov. Je to vendor neutral štandard — zbierajte telemetriu raz a posielajte ju kamkoľvek....

OpenTelemetry pre Queue Observability 🟡 Intermediate

Na QCon London 2026 Julian Wreford a Oli Lane z Gearset ukázali, ako distributed tracing a SLO riešia slepé miesta v observabilite asynchrónnych systémov. Kľúčový insight: prestaňte merať veľkosť...

Prometheus — Monitoring a Metriky 🟡 Intermediate

Prometheus je open source monitoring systém a databáza časových radov (time series), pôvodne vyvinutý v SoundCloud. Dnes je súčasťou Cloud Native Computing Foundation (CNCF) a de facto štandard pre...

SSO Break-Glass & Secret Rotation — Operational patterns 🟡 Intermediate

Single sign on is one of the highest leverage simplifications in modern operations — but it is also a single point of failure. If the identity provider is down, everything behind it is down . This...

Uptime Monitoring — Dostupnosť a SLA 🟢 Beginner

Uptime monitoring je sledovanie dostupnosti služieb z pohľadu používateľa. Nezáleží, či váš server beží — dôležité je, či zákazník dokáže službu používať. Healthchecky, SLO/SLA a status pages sú...

Velero — Kubernetes Backup a Disaster Recovery NEW 🟡 Intermediate

Velero (predtým Heptio Ark) je open source nástroj pre zálohovanie, obnovu a migráciu Kubernetes klastrov. Spravuje ho VMware (teraz Broadcom) a je de facto štandardom pre backup v ekosystéme CNCF....