정보시스템 운영상태 관리란 ?
정의 : 정보 시스템(서버시스템 정도)을 구성하는 시스템 구성 요소에 대한 운영 상태를 관리함으로써 이상 현상을 발견, 분류, 분석, 저장, 통보하고 이를 통해 담당자가 빠른 대응 조치를 할 수 있도록 지원하는 업무를 말합니다. 즉, 정보 시스템의 가용성을 향상시키는 관리이죠.
그럼 정보시스템의 운영시 상태 관리 대상과 관리항목은 무었이 있을까요?
정보시스템과 서버가 사실 같은 것은 아니지만 통칭해서 서버라고 표현하고 말씀드리면
서버의 정상적인 서비스를 제공하기 위해서는 Unix, 리눅스 및 윈도우 등의 서버 운영 상태 관리가 필수 요소입니다.
그중에서 서버 하드웨어의 운영 상태 관리 항목에는 주로 CPU, 메모리, 내장 디스크, 네트워크 연결 상태, 파일 시스템, 로그 파일, OS 프로세스, 비정상 프로세스가 있어요.
상세하게 하나씩 안내드리면 아래와 같습니다.
it담당자 들이 정보시스템의 관리항목이 무었인지 물어보는 경우가 많아서...
예전에 제가 NCS (국가직무능력표준)에 집필한 내용을 안내드립니다.
1. 운영 상태 관리 대상인 서버의 관리 항목
(가) 중앙 연산 장치(CPU) 관리 항목 입니다.
생각보다 어렵게 느껴질수 있지만....아래처럼 cpu에도 관리하는 항목이 있으니 참고하세요.
관리항목 |
설 명 |
총 CPU 사용율 |
- CPU가 idle 하지 않았던 시간의 비율(%) - 총 CPU 사용율 = 사용자 모드 사용율 + 시스템 모드 사용율 - 총 CPU 사용율 + ‘idle Mode' 사용율 = 100% - 여러 시스템간 부하 분포 감시에 활용 가능 |
시스템 모드 CPU 사용율 |
- 시스템 모드에서의 CPU 사용율(%) - System Request를 처리하는 CPU 사용율(%)(프로세스가 시스템Call을 통해 서비스 요청할 경우 사용하는 사용율) |
‘wait 모드' CPU 사용율 |
- wait 상태에서 CPU 사용율(%) |
‘idle 모드' CPU 사용율 |
- idle 상태에서의 CPU 사용율(%) |
사용자 모드 CPU 사용율 |
- 사용자 모드에서의 CPU 사용율(%) - User Request를 처리하는 CPU 사용율(%) |
‘사용자'별 CPU 사용율 |
- 특정 사용자를 위한 요청을 처리하는 CPU 사용율(%) |
Run Queue |
- 수행중이거나 수행 대기중인 프로세스의 평균 개수 - Runnable 프로세스 : CPU를 사용중인 프로세스, CPU를 사용하기 위해 대기중인 프로세스 - CPU 사용율이 100%이고 Run Queue의 개수가 프로세서의 개수보다 클 경우에는 CPU Bottleneck을 나타냄 |
출처. 한국정보화진흥원 |
(나) 디스크 관리 항목
디스크도 대기시간 최고 사용율, 초당 입출력 속도등의 관리 포인트가 있어요.
관리항목 |
설 명 |
I/O 대기 시간 |
- 내장 디스크의 I/O wait 시간(msec) |
피크 디스크 사용율 |
- 사용율이 가장 많은 디스크의 사용율(%) |
초당 물리적 디스크 I/O율 |
- 초당 발생하는 Physical 디스크 I/O 비율(%) |
디스크 큐 |
- 디스크 서브시스템에 의해 block된 프로세스의 평균수 - 서로 다른 디스크의 queue를 비교하여 디스크의 부하를 조절할 수 있음 |
출처. 한국정보화진흥원 |
(다) 메모리 관리 항목
메모리에서 사용자의 사용패턴에 따라 다양한 관리항목이 존재해요
관리항목 |
설 명 |
총 메모리 사용율 |
- Physical 메모리 사용율(%) - 커널이 사용하는 시스템 메모리, 버퍼캐쉬, 사용자 메모리를 포함함 |
여유 메모리율 |
- Free Physical 메모리율(%) |
사용자 메모리 사용율 |
- User Code와 data에 할당된 Physical 메모리의 사용율(%) - 사용자 메모리 영역: User Code, Heap, Stack, Shared Memory를 포함한 다른 데이터 영역 - 버퍼캐쉬는 포함되지 않음 |
시스템 및 버퍼캐쉬 사용율 |
- 시스템(커널)과 버퍼캐쉬에 의해 사용된 Physical 메모리 사용율(%) |
시스템 메모리 사용율 |
- 시스템에 의해 사용된 Physical 메모리 사용율(%) - 버퍼캐쉬가 포함되지 않음 |
초당 Page Request율 |
- 디스크를 통한 Page 요청 비율(%) |
초당 Page Out율 |
- 디스크로의 Page Out 비율(%) - Paging 공간과 파일 시스템으로 Page Out된 Page가 포함됨 |
Swap 공간 사용율 |
- 수행중인 프로세스에 의해 지정(reserve)된 Swap 공간(%) |
메모리 Cache Hit율 |
- 파일시스템 버퍼캐쉬 내에 있는 데이터에 대한 버퍼 캐쉬 read율(%) |
출처. 한국정보화진흥원 |
(라) 스토리지 관리 항목
관리항목 |
설 명 |
총스토리지 사용율 및 가용율 |
- 총 스토리지 사용율(%) |
평균 디스크 응답시간 |
- 디스크 응답시간(msec) |
Cache Hit Ratio |
- Cache 적중율(%) |
초당 디스크 I/O |
- 초당 발생하는 디스크 I/O 수 |
출처. 한국정보화진흥원 |
(마) 데이터베이스 관리 시스템(DBMS) 관리 항목
관리항목 |
설 명 |
DBMS 엔진 상태 |
- DBMS 데몬 등의 정상 가동 여부 |
DB I/O |
- 초당 발생하는 DB I/O 수 |
가용 테이블 저장 공간 |
- 테이블스페이스에서 사용 가능한 블록의 공간 |
가용 로그 저장 공간 |
- 로그 테이블스페이스에서 사용 가능한 블록의 공간 |
DBMS 로그 |
- DBMS에서 발생되는 로그 |
메모리 적중율 |
- 메모리 Cache의 적중율(%) |
평균 Lock 대기율 |
- Lock을 얻기 위해 대기중인 요청 비율(%) |
출처. 한국정보화진흥원 |
(바) 응용 소프트웨어 관리 항목
관리항목 |
설 명 |
각종 응용 소프트웨어 엔진 상태 |
- 응용소프트웨어 데몬 등의 정상 여부 |
응답시간 |
- 해당 어플리케이션의 응답시간(msec) |
CPU 점유율 |
- 해당 어플리케이션의 CPU 점유율(%) |
초당 처리 건수 |
- 해당 어플리케이션의 초당 트랜젝션 처리건수 |
출처. 한국정보화진흥원. |
(사) 네트워크 관리 항목
관리항목 |
설 명 |
네트워크 장비 연결상태 |
- 서버간의 커뮤니케이션 정상 여부 |
서버의 네트워크 포트 상태 |
- 서버간의 네트워크 포트 정상 여부 |
네트워크 대역폭(bandwidth) 사용율 |
- 시스템 자원이 네트워크 트래픽을 처리하는 비율(%) |
네트워크 collision율 |
- 네트워크 Collision이 시스템 성능에 저하를 주는 비율(%) |
네트워크 I/O error율 |
- 네트워크 패킷 오류가 발생하는 비율(%) |
구간별 네트워크 응답시간 |
- 네트워크 구간의 응답시간(msec) |
초당 네트워크 패킷율 |
- 초당 발생하는 모든 인터페이스에 대한 성공적인 패킷 (에러나 Collision 없이 처리된 inbound와 outbound 패킷)의 수 - 얼마만큼의 네트워크 트래픽이 발생하는지를 확인하는 것으로 초당 네트워크 구간 회선 사용율(%) |
출처. 한국정보화진흥원 |
(아) 미들웨어 관리 항목
미들웨어(Middleware)는 응용 소프트웨어가 운영체제로부터 제공받는 서비스 이외에 추가적으로 이용할 수 있는 서비스를 제공하는 컴퓨터 소프트웨어입니다
관리항목 |
설 명 |
미들웨어 엔진 상태 |
- 미들웨어 데몬 등의 정상 여부 |
서비스 큐잉/Thread 상태 |
- 온라인 트랜젝션 대기상태 및 Thread |
초당 처리 건수(응답시간) |
- 초당 트랜젝션 처리건수(msec) |
에러 및 ABEND 로그 |
- 예외 상황에서 발생하는 에러로그 |
출처. 한국정보화진흥원 |
2. 운영 상태 관리 프로세스
(1) 운영 상태 관리 항목의 단계와 수집 정보
(가) 사전 준비
운영 상태 관리 대상 및 항목을 모니터링하기 위하여 사전에 모니터링 목적을 명확히 해야 한다. 모니터링한 결과를 성능 관리, 장애 관리, 용량 관리 등 어떠한 용도로 사용할 것인지에 따라 데이터 분류 및 분석 방법이 다르게 계획되어야 한다.
(나) 운영 상태 관리 항목 수집
정보 시스템 환경에 따라 운영 상태 관리 대상별 관리 항목에 대해 개별 또는 통합 운영 상태 관리 환경에서 로그 데이터를 수집하고, 수집 데이터는 가공, 분석하도록 지원한다.
관리 대상 |
관리 항목 |
수집 주기(초) |
비고 |
서버 |
CPU |
15 |
수집된 데이터는 분석을 위해 가공할 필요가 있으며 지속적으로 저장하여야 함(임계치 접근할 경우만 수집도 가능). 용도별(성능, 장애, 용량 관리) 주기가 상이 |
메모리 |
60 |
||
내장 디스크 |
60 |
||
네트워크 연결 상태 |
60 |
||
파일 시스템 |
60 |
||
로그 파일 |
60 |
||
네트워크 |
주요 시스템 프로세스 |
15 |
시스템 부하 정도를 고려하여 수집 주기를 조정할 수 있음. 용도(성능, 장애, 용량 관리)에 따라 주기가 다름. |
네트워크 장비 연결 |
15 |
||
네트워크 포트 상태 |
15 |
||
대역폭 사용률 |
150 |
||
네트워크 충돌률 |
150 |
||
네트워크 I/O 에러율 |
1800 |
||
스토리지 |
구간별 응답 시간 |
1800 |
|
초당 패킷률 |
150 |
||
사용률 및 가용률 |
60 |
||
평균 응답 시간 |
60 |
||
캐시 Hit Ratio |
60 |
||
초당 디스크 I/O |
60 |
||
DBMS |
엔진 상태 |
15 |
|
DB I/O |
300 |
||
가용 테이블 공간 |
1800 |
||
가용 로그 저장 공간 |
1800 |
||
DBMS 로그 |
1800 |
||
메모리 적중률 |
300 |
||
평균 Lock 대기율 |
600 |
||
미들웨어 |
엔진 상태 |
15 |
|
서비스 큐잉 상태 |
15 |
||
초당 처리 건수 |
60 |
||
에러 및 ABEND 로그 |
60 |
||
응용 소프트웨어 |
엔진 상태 |
60 |
|
응답 시간 |
60 |
||
CPU 점유율 |
60 |
||
초당 처리 건수 |
60 |
||
출처. 한국정보화진흥원 |
(다) 운영 상태 관리 항목 분석과 가공
운영 상태 데이터는 용도에 맞게 분석해야 하며 분석 주기는 용도에 따라 조정이 가능하다. 고객 특성을 반영하여 적정한 주기를 정하고 수행하도록 한다. 수집된 관리 대상별 관리 항목에 대해서는 용량 관리, 장애 관리, 성능 관리 같은 용도로 분석될 수 있다. 또 분석 용도를 충족하도록 로그 데이터 소스들을 합성하거나 추출하고 가공된 데이터 소스들을 통계 기법을 활용하여 분석 및 재해석한다.
(라) 운영 상태 관리 항목 활용
운영 상태 데이터는 용량 증설, 장애 예방 및 제거, 튜닝 등의 근거 데이터로 활용된다.
관리 대상 |
관리 항목 |
실시간 |
단기 |
중장기 |
서버 |
CPU |
|
튜닝 |
용량 증설 |
메모리 |
|
튜닝 |
용량 증설 |
|
내장 디스크 |
|
튜닝 |
용량 증설 |
|
네트워크 연결 상태 |
장애 예방 및 제거 |
|
|
|
파일 시스템 |
|
튜닝 |
용량 증설 |
|
로그 파일 |
장애 예방 및 제거 |
|
|
|
주요 시스템 프로세스 |
장애 예방 및 제거 |
|
|
|
네트워크 |
네트워크 장비 연결 상태 |
장애 예방 및 제거 |
|
|
네트워크 포트 상태 |
장애 예방 및 제거 |
|
|
|
대역폭 사용률 |
|
튜닝 |
용량 증설 |
|
네트워크 충돌률 |
|
장애 예방 및 제거 |
|
|
네트워크 I/O 에러율 |
|
장애 예방 및 제거 |
|
|
구간별 응답 시간 |
|
튜닝 |
|
|
초당 패킷률 |
|
튜닝 |
|
|
스토리지 |
사용률 및 가용률 |
장애 예방 및 제거 |
|
용량 증설 |
평균 응답 시간 |
|
튜닝 |
|
|
캐시 Hit Ratio |
|
튜닝 |
|
|
초당 디스크 I/O |
|
튜닝 |
|
|
DBMS |
엔진 상태 |
장애 예방 및 제거 |
|
|
DB I/O |
|
튜닝 |
|
|
가용 테이블 공간 |
|
튜닝 |
용량 증설 |
|
가용 로그 저장 공간 |
|
튜닝 |
용량 증설 |
|
DBMS 로그 |
장애 예방 및 제거 |
|
|
|
메모리 적중률 |
장애 예방 및 제거 |
튜닝 |
|
|
평균 Lock 대기율 |
장애 예방 및 제거 |
튜닝 |
|
|
미들웨어 |
엔진 상태 |
장애 예방 및 제거 |
|
|
서비스 큐잉 상태 |
장애 예방 및 제거 |
|
|
|
초당 처리 건수 |
|
튜닝 |
|
|
에러 및 ABEND 로그 |
장애 예방 및 제거 |
튜닝 |
|
|
응용 소프트웨어 |
엔진 상태 |
장애 예방 및 제거 |
|
|
응답 시간 |
|
튜닝 |
|
|
CPU 점유율 |
|
튜닝 |
|
|
초당 처리 건수 |
|
튜닝 |
|
|
백업 |
백업 성공 여부 |
장애 예방 및 제거 |
|
|
로그 |
|
튜닝 |
|
|
출처. 한국정보화진흥원 |
(마) 운영 상태 관리 항목 평가
운영 상태 관리에 의해 얻어진 데이터를 통해 전반적인 원인 분석과 개선 방안 도출을 주기적으로 시행하고, 지속적으로 운영 상태 관리 현황을 기록, 관리한다.
(바) 운영 상태 관리 항목 개선 방안 도출
관리 대상 및 관리 항목, 수집 주기, 임계치 등의 적절성 검토 및 개선 방안을 지속적으로 도출한다.
구분 |
평가 항목 |
평가 방법 및 개선 방향 도출 |
비고 |
서버 |
CPU |
CPU 부하 및 메모리(SWAP) 사용 정도를 평가(예: 임계치 도달 횟수 과다)하여 증설 여부 결정 |
성능, 장애, 용량, 변경 관리 |
메모리 |
|||
내장 디스크 |
임계 용량 및 성능을 측정하여 증설 여부 결정 |
||
네트워크 연결 상태 |
임계치 발생 횟수에 따른 용량 증설 및 성능 튜닝, 장애 예방 대책 수립 및 개선 방향 도출 |
||
파일 시스템 |
|||
로그 파일 |
|||
주요 시스템 프로세스 |
|||
네트워크 |
네트워크 장비 연결 상태 |
모니터링 결과가 대역폭 용량을 늘려서 해결 가능한 것인지, 불필요한 패킷 경로 또는 구성상의 문제인지를 분석하여 대책 수립 및 개선 방향 도출 |
성능, 용량, 장애, 변경 관리 |
네트워크 포트 상태 |
|||
대역폭 사용률 |
|||
네트워크 충돌률 |
|||
네트워크 I/O 에러율 |
|||
구간별 응답 시간 |
|||
초당 패킷률 |
|||
스토리지 |
사용률 및 가용률 |
누적된 데이터를 분석하여 용량 증설 시점을 파악하거나 불필요한 데이터 백업 후 삭제 계획을 수립하고, 성능 저하 현상으로 판단된 경우 원인을 파악하여 대책 수립 및 개선 방향 도출 |
성능, 장애, 용량, 변경 관리 |
평균 응답 시간 |
|||
캐시 Hit Ratio |
|||
초당 디스크 I/O |
|||
DBMS |
엔진상태 |
임계치 발생 횟수에 따른 용량 증설 및 성능 튜닝, 장애 예방 대책 수립 및 개선 방향 도출 |
성능, 장애 관리 |
DB I/O |
|||
가용테이블 공간 |
|||
가용 로그 저장 공간 |
|||
DBMS 로그 |
|||
메모리 적중률 |
|||
평균 Lock 대기율 |
|||
미들웨어 |
엔진 상태 |
임계치 발생 횟수에 따른 용량 증설 및 성능 튜닝, 장애 예방 대책 수립 및 개선 방안 도출 |
성능, 장애 관리 |
서비스 큐잉 상태 |
|||
초당 처리 건수 |
|||
에러 및 ABEND 로그 |
|||
응용 소프트웨어 |
엔진 상태 |
임계치 발생 횟수에 따른 용량 증설 및 성능 튜닝, 장애 예방 대책 수립 및 개선 방안 도출 |
성능 관리 |
응답 시간 |
|||
CPU 점유율 |
|||
초당 처리 건수 |
|||
PC |
백신 설치 상태 |
지속적인 모니터링이 필요하며, 적시에 예방 대책 수립 |
장애 관리 |
중요 패치 적용 상태 |
|||
바이러스 감염 상태 |
|||
기타 |
배치 작업 상태 |
작업 재수행 여부를 판단하여 재발 원인 방지 대책 수립 및 개선 방안 도출 |
성능, 장애 관리 |
백업 상태 |
|||
|
초당 처리 건수 |
|
|
출처. 한국정보화진흥원 |
약간 어려운 내용일수도 있겠지만....IT관리자라면 때로는 필요한 내용일것 같아...오랜만에 포스팅해 봅니다.
모든분들 즐거운 한주되세요.