728x90
반응형


Windows NT부터 Windows 7에서 까지 ‘시스템 속성 > 성능 > 설정 > 성능 옵션 > 고급 > 프로세서 사용 계획’에 ‘프로그램’과 ‘백그라운드 서비스’ 옵션 두 가지 중 하나를 사용자가 선택할 수 있습니다. 이 두 개의 옵션에 대해서 여러 의견(?)들이 난무하는데요, 이번 포스팅에서는 이 두 가지 옵션이 어떤 의미를 가지는지 그리고 여러분은 어떤 상황에서 두 옵션 중 하나를 선택할 것인지를 설명 드릴까 합니다.

image

[그림 1. Windows 7, 프로세서 사용 계획]



 

잘못된 오해
 많은 분들께서 이 옵션에 대해서 아래와 같이 잘못 이해하고 계십니다.

{‘프로그램’은 실제 사용자가 실행하는 응용 프로그램이고 ‘백그라운드 서비스’는 ‘서비스 관리자(services.msc)’에서 실행되는 서비스를 의미한다. 그래서 프로세서 사용계획의 설정에 의해 ‘프로그램’을 선택하면 사용자 프로그램에 더 많은 CPU 사용량을 할당하고 ‘백그라운드 서비스’를 선택하면 서비스(Service)에 더 많은 CPU 사용량을 할당한다} => NO, NO, NO 이렇게 이해하고 계시면 안됩니다.




 

진실을 말씀 드리겠습니다.
 (이 옵션을 이해하기 위해서는 먼저 스레드와 컨텍스트 스위치 두가지 개념을 이해하셔야 합니다 그래서 이 단어의 정의를 설명드리면서 옵션을 이해하도록 하겠습니다)
우리가 사용하는 프로그램이란 것은 알고 보면 실행 파일이 프로세스(Process)로 만들어 진 후 스레드(Thread)에서 명령이 실행되는 것 입니다, 여기서 스레드란 명령어가 CPU를 사용하여 실행되는 단위로 정의 할 수 있습니다. (그밖에 많은 복잡한 이야기들이 있지만 여기서는 이정도 까지만 이해하시면 되겠습니다)

우리가 컴퓨터를 사용할 때 우리는 모르지만 네트워크 처리, HDD 처리, 커널에서의 작업, 응용프로그램 처리 등등 너무나도 많은 작업들이 동시 다발적으로 이뤄지고 있습니다. 다른 예로, 사용자가 인터넷에서 파일을 다운로드 하면서 Word와 WMP를 함께 사용하는 경우도 생각해 볼 수 있습니다. 이러한 것들은 모두 스레드 단위로 작업이 이뤄지며 작업에 따라 스레드 처리 시간이 길수도 짧을 수도 있습니다.

일상 생활에서도 금방 끝나는 일이 있고 오래 걸리는 일들이 있듯이 스레드도 처리 하는데 시간이 긴 작업과 짧은 작업들이 섞여 있는데 만약 그림처럼 CPU에서 하나의 스레드가 끝날 때까지 다른 스레드들은 기다려야 한다면 스레드 A가 끝날 때 까지는 스레드 B, C는 기다리고만 있어야 할 것 입니다.

image

[그림 2]

위 그림 2처럼 하나의 스레드가 자신의 명령이 끝날 때가지 계속 CPU 독점해서 사용한다고 하면 오랜 시간 동안 다른 스레드들(프로그램)이 실행되지 못할 것입니다, 그렇게 되면 다른 프로그램의 성능에 영향을 주겠죠? 특히 스레드 B의 입장에서는 잠시 CPU를 사용하면 금방 끝날 일인데 앞에서 스레드 A의 작업이 끝나기를 기다려야 하니 답답한 노릇일 것입니다.

그래서 좀더 효율적으로 동시 작업이 가능 하도록 하나의 스레드가 시작해서 끝날 때까지 무작정 CPU를 사용하는 것이 아니고 그림 3. 처럼 스레드의 실행 시간을 짧은 시간 단위로 잘라낸 뒤 순서대로 세워 놓고 실행하다 자신에게 할당된 시간이 끝나면 하던 일을 멈추고 다음 스레드에게 CPU를 사용할 수 있도록 한 뒤 다시 자기 차례가 돌아오면 자신의 일을 다시 합니다. 스레드가 CPU를 얼마 동안 사용할지를 정의한 시간 단위를 바로 퀀텀(Quantum)이라고 합니다. 그러면 그림에서처럼 스레드 B는 다음 순번에서 바로 작업을 끝낼 수 있습니다. (그림 3의 ‘A B C A B C A C A C A A A’ 순서를 보시면 이해가 좀 쉬우실 것입니다)

image

[그림 3]

이 퀀텀을 사용자가 길게도 혹은 짧게도 설정 할 수 있는데 이것이 바로 ‘프로세스 사용 계획 옵션’입니다. 그래서 ‘프로그램’으로 설정하면 모든 스레드의 퀀텀을 짧게(6, 대략 2 Click) 설정하고 반대로 ‘백그라운드 서비스’로 설정하면 길게(36, 대략 12 Click) 설정 합니다.

그렇다면 퀀텀(스레드 실행 시간)을 짧게 혹은 길게 설정 하는 것은 어떤 차이가 있을까요?

차이와 그에 따른 장단 점을 이해 하시려면 Context Switch라는 의미를 이해 해야 합니다.

image

[그림 4, Context Switch]

그림 4.와 같이 퀀텀에 정의된 시간이 끝나 CPU를 떠나야 하는 스레드 A는 CPU를 떠나기 전에 자신이 어디까지 작업을 했는지를 저장합니다, 그래야 다음 차례에 다시 A가 실행될 때 앞에서 마지막으로 진행했던 부분부터 다시 시작 할 수 있기 때문입니다, 또한 B는 자신이 앞에서 실행 했던 부분부터 다시 시작 하기 위해 앞에서 저장했던 실행정보를 불러옵니다, 바로 이런 일련의 작업을 컨텍스트 스위치(Context Switch)라고 합니다.

이 Context Switch 자체는 미약(?)하기는 하지만 전체적으로 보면 성능에 영향을 줄 수 있는 작업입니다. 그래서 만약 다른 작업은 거의 없고 CPU에서 스레드를 처리하는데 긴 시간이 필요한 단일 응용프로그램(SQL Server 혹은 그래픽 랜더링 작업 같은)만 실행하는 환경이라면 ‘백그라운드 서비스’로 설정해 Context Swith를 최소화하고 해당 프로그램의 스레드가 긴 시간 CPU를 사용 할 수 있도록 하는 것이 효과적일 것입니다.

반대로 일반 사용자의 컴퓨터 사용 패턴은 아주 소소한 아이콘 클릭 같은 작업을 포함해 IE같은 웹 브라우저 사용과 함께 음악을 듣는 것과 같이 동시에 여러 프로그램을 실행하는 패턴을 보입니다. 이런 경우 스레드에 긴 시간을 주면 스레드가 끝나기를 기다리는 시간이 오래 걸리기 때문에 다른 작업으로 넘어가는데 시간이 걸려 반응속도를 늦출 수 있지만, 일정한 시간 내에 여러 스레드들이 실행 될 수 있도록 퀀텀을 작게 설정하면 사용자 측면에서 반응속도를 높일 수 있습니다..



두 옵션은 아래와 같이 정의 할 수 있습니다


프로그램: 여러 작업을 동시에 수행하는 일반 사용자 환경에서 쾌적한(?) 반응 속도를 보여준다.
백그라운드 서비스: 계속해서 한가지 작업을 실행하는 응용프로그램을 실행 하는 경우 높은 처리 효율을 가진다.
 * 이 두 옵션을 그 반대의 환경에 설정하였다면 반드시 나쁘다고는 말할 수 없겠지만 성능 효율면에서는 떨어질 것입니다.

그래서 기본적으로 Windows 2000 Professional, XP, Vista그리고 Windows 7과 같이 일반 사용자를 위한 Windows 클라이언트에서는  ‘프로그램’으로 설정 되어 있으며 Windows Server 2000, 2003, 2008에서는 ‘백그라운드 서비스’로 설정 되어 있습니다. 만약 윈도우 클라이언트지만 그래픽 랜더링 작업 같이 CPU를 많이 사용하는 하나의 작업을 주로 사용하는 환경이라면 ‘백그라운드 서비스’를 선택 할 수 있을 것이고 반대로 윈도우 서버지만 클라이언트 환경같이 사용한다면 ‘프로그램’ 옵션을 선택하면 성능에 효과적일 것입니다.




조금 자세한 추가 설명
‘프로그램’으로 설정 되어 있으면 스레드는 2 Clock interval 기간 동안 실행이 가능하며 ‘백그라운드 서비스’는 12 Clock interval 기간 동안 실행할 수 있습니다.

퀀텀에서는 Clock interval의 3배수로 설정됩니다, 그래서 ‘프로그램’으로 설정 되어 있으면 Short 값인 6(‘실제 Clock 2개’ x 3배수)을 가지고, ‘백그라운드 서비스’로 설정 되어 있으면 퀀텀 Long 값인 36(‘실제 Clock 12개’ x 3배수)을 가집니다. 그래서 클럭인터럽트가 걸릴 때마다 퀀텀 값을 3단위로 줄여가 결국 0이 되면 일단 그 스레드가 이번에 실행될 시간은 모두 끝내고 기다리고 있던 다음 스레드가 실행 되도록 합니다.

이해를 돕고자 상당 부분 단순화 썼습니다. 좀더 자세한 정보가 필요하신 분들께서는 아래  Windows Internals의 Thread 부분을 참고 하시기 바랍니다.



[참고문서]Windows Internals 4’th, Chapter 6, Controlling the Quantum
 

Tags  Kernel Microsoft Performance Windows Windows 2008 Windows 7 Windows Vista 마이크로소프트 윈도우즈 7

728x90
300x250

'IT > IT 개념' 카테고리의 다른 글

하드웨어의 가상화 - CPU 부분  (0) 2016.07.07
VT-D 란 무엇인가?  (0) 2016.07.07
728x90
반응형

- Virtual Machine(이하 VM)에도 CPU가 있지만 실제 VM내의 게스트OS에서의 발생하는 모든 프로세스들은 VM이 아닌,
실제 호스트의 CPU에서 처리가 이루어지며, 게스트OS에서 발생하는 프로세스들(CPU Process)은 VMkernel의 'VMM'을 통해 실제 호스트의 CPU로 프로세스 처리가 가능하도록 전달해줍니다.
(VMM은 'Virtual Machine Monitor'이며 VM에서 실행되는 실제 CPU명령을 전달해줍니다, 하나의 VM에 하나의 VMM이 반드시 생성되며, 개별 VM들이 서로 충돌이나 간섭없이 작동될 수 있도록 격리시키져는 역할도 하게 됩니다.

이 때, CPU에게 명령을 전달해주는 방식으로는 두 가지가 있습니다.


1. Binary Translation
 --> VM내의 게스트OS에서 CPU에 직접 명령을 전달해야하는 Privilege code들을 'Binary Translation' 기법을 통해 중간에 가로채어 에뮬레이션화 해서 접을 조종하게 됩니다.


2. Direct Execution
 --> RIng 0접근이 필요없는 사용자 레벨(Ring 3)에서의 코드들은 'Direct Execution(직접 실행)' 기법을 사용하게 됩니다.)


 - VMKernel은 모든 VM에게 발생하는 CPU Process들은 최대한 균등하게 분배할 수 있도록 전체 물리적인 CPU 리소스를 스케줄링하며 시분할 방식을 통해 프로세스를 처리하려고 합니다.


 - 멀티코어 프로세서


: 코어 개수가 많으면 많을소록, 더 많은 가상 CPU를 사용할 수 있게됩니다. vSphere서버에서 각 코어는 하나의 Logical Processor단위로 인식이 되며,듀얼코어 CPU의 경우 2개의 Logical Processor단위로 인식하게 되며, 그 위에 Virtual CPU를 할당하여 사용하게 됩니다.


- 하이퍼쓰레딩


: 하이퍼쓰레딩이란 OS가 물리적인 하나의 CPU를, 두 개의 논리적인 CPU처럼 인식하여 동작하게 해주는 기술입니다.
vSphere에서도 하이퍼쓰레딩을 지원하게 되며, 기능이 설정되었다면, 모두 Logical Processor로 인식하게 됩니다.


 - DVFS(Dynamic Voltage and Freqyency Scaling)


: CPU의 Clock rate와 전력을 동적으로 조정하여 전력비용을 절감 시킬 수 있는 기술입니다.
설정에 따라 CPU가 갖고 있는 최대 Clock rate를 사용할 수 도 있으며, CPU 사용량에 따라 vSphere서버 스스로 동적으로 Clock rate를 변경할 수 있습니다.


 - CPU Affinity


: VM의 Virtual CPU가 보는 호스트의 CPU는 항상 같을 수는 없습니다.
첫 번째 명령을 0번 코어가 처리했다면, 두 번째 명령을 4번 코어가 처리할 수도 있습니다, 하지만 특정 VM에서 일어나는 CPU 명령을 고정적으로 처리할 수 있게 CPU를 지정해주는 기능을 말합니다.
주의해야 할 사항은, Affinity 설정 시 기존CPU 개수에 +1를 해주는 것이 좋습니다. 그리고 하이퍼쓰레딩을 사용하는 경우에는 CPU번호를 떨어뜨려서 사용해야 합니다 (Ex, CPU0-CPU4)
왜냐하면, 하이퍼쓰레딩의 경우 물리적 한개를, 논리적 2개로 인식을 합니다. vSphere서버가 CPU를 인식할 때는 물리적 CPU내의 논리적 CPU순서입니다.(물리CPU0 - 논리CPU0, 물리CPU1 - 논리CPU-1....등)
Affinity설정 시, CPU0-CPU1를 하게 된다면 논리적으로 보았을 때는 별 문제 없어보이나 물리적으로 본다면 실질적으로 코어
 한개만을 사용하는 것이 되기 때문입니다(하이퍼쓰레딩을 사용시 Affnity설정할 때의 이야기입니다).


 

- Full Virtualization, Paravirtualization


1. Full Virtualization, 대표로는 VMware의 ESX서버입니다


여기서 작동되는 게스트OS는 자신이 하이퍼바이저 커널에서 작동되고 있다는 것을 모릅니다. 단순히 자신에게 물리적인 장치들이 장착되어 있으며 나 혼자만이 하드웨어를 독점하여 사용하고 있다고 생각할 뿐입니다.
이와 같이 스스로 착각을 하기 때문에, CPU의 경우 VMware에서 'Binary Translation'과 'Direct Execution' 과 같은 기법을 통해 CPU 명령을 중간에서 변환시켜야 하는 일종의 오버헤드가 발생하기 때문에 성능저하가 발생할 여지가 존재하게 됩니다.


2. Paravirtualiztion, 대표로는 Zen 서버입니다.


Full Virtualization과는 조금 다릅니다, 최초엔 하이퍼버이저에서 인식할 수 있는 특별한 시스템 콜 명령을 가지고 있는 게스트OS여야만 작동이 가능했습니다. 이 방식을 통해 직접 CPU에게 명령을 전달하여 오버헤드를 줄일 수 있으므로, Full Virtualization보다 좀 더 하드웨어에 근접한 성능을 뽑아낼 수 있었으나, 게스트OS의 커널이 수정되어야 하는 불편함이 존재했습니다.
리눅스의 경우는 시스템 콜 명령이 커널 내부에 포함되어 작동이 되었지만(커널 2.6이상) 윈도우의 경우 그렇지 않았습니다.
그러나 Intel VT-x , AMD-V 기술이 나오게 되면서 이러한 부분이 해결이 되었습니다.
VMM이 Ring -1로 가게되면서 게스트OS가 제약없이 RIng 0의 하드웨어 접근권한을 갖게 되므로, 윈도우에서도 커널 수정없이 바로 작동이 가능하게 된 것입니다.

728x90
300x250
728x90
반응형

VT-D는 가상머신에서 장치에 직접 엑세스를 할 수 있게 해주는 기능 입니다.

 

이게 아래와 같은 경우 아주 유용합니다.

 

예를 들어 ESXi 같은 하이퍼바이저에서 VT-D를 지원하는 경우... VMDirectPath라는 기능을 사용합니다.

레이드 컨트롤러 같은 것을 가상머신에 지정하여 가상머신에서 직접 입출력관리를 할 수 있게 해줄 수 있죠.

만일 이게 안되면 가상머신에 가상디스크를 할당하여 사용해야 하는데, 성능과 관리적 측면에서 상당히 손해가 되겠죠.

암튼 저같은 경우 몇번 써보니 아주 유용했습니다.

 

참고 문서 : http://www.servethehome.com/configure-passthrough-vmdirectpath-vmware-esxi-raid-hba-usb-drive/

 

 

가상화를 할때 '호스트 OS' 기반이던 '하이퍼바이져(Hypervisor)'기반이던. 각각의 디바이스들은 VMM을 통해서 각각의 VM 들과 연결이 되며 vmm을 통해서 디바이스를 가상으로 에뮬레이션하여 자원을 할당받아보니. 효율성 문제와 병목현상이 발생합니다.

 

 

 

728x90

 




왼쪽이 일반 소프트웨어 방식의 I/O 가상화를 통한 연결방식을 보여주는것이고. 오른쪽이 VT-D 기술을 사용하여 VM 들과 연결된 상태를 보여줍니다. 이렇게 디바이스를 직접적으로 연결하기 위해서는 DMA Remapping 이라는 기능이 필요한데. (위 이미지 하나만 보셔도 차이는 쉽게 이해 되실겁니다.) 그래서 각각의 VM에서 직접적으로 디바이스를 엑세스 할수 있게 해주는 기술이 VT-D 입니다.

 

728x90

 

DMA Remapping 이란 이름에서 알수 있든 장치(디바이스)의 고유 메모리 주소를 VM(게스트OS)에서 "직접" 엑세스 할수 있도록 DMA메모리 주소값을 변환/관리 해주는 기술입니다.

 

 

 

각각의 디바이스들과 시스템이 직접적으로 연결되는 노스브릿지 사이에 VT-D 기능이 위치하게 되며. 이로 인해 '칩셋'에 따라 VT-D 가 적용여부가 달라지는것입니다.(※주: 메모리 컨트롤러가 cpu에 내장되고. 노스/사우스 칩셋 통합 및 인텔 정책에 따라 칩셋이 아닌 다른 제약조건으로 바뀔수 있음.)

 

 

 

또한 DMA Remapping 직접적으로 연결된다는 사실 이외에 따라 각각의 디바이스들은 독립적인 I/O 버퍼를 활용할수 있기 때문에 병목현상이 줄일수 있으며, 도메인간 버퍼를 공유하지 않기 때문에. 데이터 보안성도 높일수 있다는 장점도 있습니다.

VT-D 기술에 대해 좀더 자세한 내용을 원하시는분은 아래 링크를 참고하기 바랍니다.

http://download.intel.com/technology/computing/vptech/Intel(r)_VT_for_Direct_IO.pdf
http://www.intel.com/technology/itj/2006/v10i3/2-io/1-abstract.htm

 

결론적으로 VT-D 기술은 가상화시 당연히 있으면 좋은 기능이며. 클라이언트에게 서비스를 제공하는 서버 입장에서는 큰 차이가 됩니다만.... 데탑 시스템으로 지원할수 있는 최대 메모리 및 코어수가 서버용 제품들에 비해 한정적이라 많아봐야 2~4개정도의 VM을 올리는게 최대치라 생각되는데. 이정도 규모에서는 VT-D의 유무에 따른 체감속도는 미비할것으로 생각됩니다.

저렴한 가격에 VT-D 기능과 인텔 AMT 기능을 사용해 볼 생각이라면 구매를 말리지는 않겠습니다만.

슈퍼마이크로 제품들중에서 모델명이 C로 시작하는 제품들은 데탑용으로 설계된 구색 맞추기용 제품이라. 서버용으로 개발된 X계열보다 전원부도 부실한게 사실이고. 전반적으로 저렴한 부품이 사용되었기에. 적극 추천할 만한 제품은 아니라고 생각됩니다. 차액금인 10만원을 저축하여 차후 물리적 듀얼 제품으로 업글하는것도 한가지 방법이라 판단됩니다. 신중하게 선택하셨으면 합니다.


*이미지 출처 : intel.com

728x90
300x250

+ Recent posts