본문 바로가기

공부27

[모니터링] Prometheus + SpringBoot 전 글에서 프로메테우스와 그라파나를 연결해서 모니터링 시스템은 구축해둔 상태이다.백엔드의 SpringBoot 서버의 메트릭을 수집해서 프로메테우스가 해당 서버에 질의할 수 있게 엔드포인트를 열어줘야 한다. 1. 스프링 부트 Actuator 라이브러리 추가, Prometheus 전용 메트릭으로 변경해서 엔드포인트 노출 라이브러리 추가 // Actuator, Prometheus implementation 'org.springframework.boot:spring-boot-starter-actuator' implementation 'io.micrometer:micrometer-registry-prometheus' 1) Spring Actuator의 health 체크 기능은 LoadBalancer에서도 사용된다.. 2025. 6. 6.
[모니터링] Prometheus + Grafana 맥북에 프로메테우스와 그라파나를 연동해서 모니터링 시스템을 마련해두었다. 1. 프로메테우스 (Prometheus)메트릭 수집 및 저장에 특화된 시스템이다. 시스템이나 어플리케이션의 다양한 상태 정보를 주기적으로 수집해서 시계열 데이터(시간에 따른 변화를 기록한 데이터)로 저장하는 역할을 수행한다. 기본적으로 프로메테우스 서버는 대상 시스템으로부터 메트릭을 능동적으로 가져온다.다차원 데이터 모델 형태로 데이터를 저장하여 유연한 데이터 조회가 가능하다고 한다.Alertmanager라는 별도의 컴포넌트와 연동하여 특정 조건에 따라 경고를 발생시키고 다양한 채널로 알림을 보낸다.모니터링 대상을 동적으로 발견하고 설정할 수 있는 기능을 제공한다. 2. 그라파나 (Grafana)수집된 데이터를 시각화하고 대시보드.. 2025. 6. 6.
[BE] RabbitMQ 장애 - 메시지 중복 처리, 메모리 부족, 디스크 공간 부족 저번 글에서 잠시 다루었지만, RabbitMQ를 쓰다보면 만날 수 있는 대표적인 장애 시나리오이다. 1. 메시지 중복 처리메시지를 최소 한 번 이상 전달을 하기 위해서는 ack 신호를 메시지 브로커에 전달해야 한다.하지만 메시지를 소비한 이후, 장애가 발생하여 ack 신호를 메시지 브로커에 전달하지 못하는 경우가 있다.이런 경우 메시지 브로커는 큐에서 해당 메시지를 제거하지 않는다.서버는 장애에서 회복된 후, 서버에서 메시지를 새로 꺼내서 소비하게되고 이런 시나리오에서 중복 처리가 발생할 수 있다. 2. 메모리 부족큐에 쌓이는 메시지가 처리되는 메시지보다 많을 경우, 특히 non-persistent의 경우많은 수의 연결과 채널이 존재하는 경우 메모리 부족 문제가 발생할 수 있다.메시지를 가능한 한 디스크.. 2025. 6. 5.
[BE] RabbitMQ 장애 - 메시지 유실 RabbitMQ는 설정이 간편하면서도 강력한 성능을 보여주는 메시지 브로커이다. 메시지, 큐의 디스크 저장으로 프로세스에 장애가 발생해도 발행된 메시지를 복원할 수 있다.또한 큐에서 소비자에게 전달된 메시지를 확인하는 메커니즘을 통해 최소 한 번 이상의 메시지 전달을 보장한다.네트워크 문제나 장애 상황 등 다양한 이유로 이 보장이 깨지거나, 실제로는 유실된 것처럼 보이는 상황이 발생한다. 1. 메시지 유실1) Producer(발행자) 측면[시나리오1] Publisher Confirms 미사용 또는 처리 미흡발행자가 메시지를 RabbitMQ 브로커로 전송했지만, 네트워크 문제로 메시지가 브로커에 도달하지 못했다.Publisher Confirms 메커니즘을 사용하지 않으면, 발행자는 이 사실을 알지 못하고 .. 2025. 6. 5.
[BE] Publish & Subscribe 구조 요즘 구현 중인 알림 기능을 만들며 조금 더 자세히 Pub/Sub 구조에 대해 고민하고 있다. 하나의 JVM 프로세스에서 호출되는 함수와 변수들은 메시지를 통해 내부 프로세스의 함수나 변수에 바로 접근할 수 있다.JVM의 Method Area에서 상수와 함수들을, Heap에서 인스턴스들을 호출하고 그 결과를 바로 사용한다. 하지만 MSA와 같이 다른 프로세스로 분리된 서비스에선 이 역할을 네트워크를 통해 수행해야 한다.보통 API 등을 호출하거나 위와 같이 메시지를 발행하고 소비하는 패턴을 사용해서 다른 서비스의 함수를 호출하게 된다. 내가 알림 기능을 이 구조로 변경해야겠다고 마음먹은 것은 과거에 있었던 운영자 기능의 공지사항 생성 시 알림 기능 때문이다.당시에는 서버 사용자가 100명 미만이었기 때문.. 2025. 6. 4.