네할렘(Nehalem) 아키텍처의 첫 프로세서가 발표됐다. 그 와중에 이 프로세서와 짝꿍을 이루는 메인보드 칩셋인 'Intel X58(코드네임 Tylersburg)'을 채택한 메인보드들이 속속 모습을 드러내고 있다. 특히 인텔의 레퍼런스 메인보드인 'DX58SO'가 11월 3일 오후 1시(한국시각 기준)으로 공식 발표되면서, 서드파티 업체들의 움직임이 활발해지고 있다.
인텔 DX58SO(코드네임 Smackover)는 X58 칩셋을 사용한 인텔의 레퍼런스급 보드이다. 언제나 인텔 브랜드로 나오는 메인보드는 그 칩셋의 기능과 성능을 가장 정확하게 반영하는 성격이 강했고, 이는 이번에도 마찬가지이다. 블룸필드 프로세서는 퍼포먼스 이상부터 익스트림 급의 하이엔드 유저를 대상으로 하며, 이를 위한 칩셋은 현재는 X58 하나 뿐이다.
이미 네할렘 아키텍처가 기존의 프로세서와 많은 부분에서 차이가 있는 만큼, 이와 짝을 이루는 메인보드 또한 기존의 메인보드에 비해 많은 점이 달라진다. 이를 제대로 짚어내기 위해서는, 프로세서나 메인보드 둘을 따로 보는 것이 아니라, 하나의 플랫폼으로의 이해가 필요하다. 이 글은 메인보드에 초점을 맞춘 상태로 플랫폼에 대한 언급이 들어갈 것이다.
▲ 인텔의 X58 기반 플래그쉽 메인보드 'DX58SO'
X58, 칩셋의 역할이 '재정의'되다
네할렘 아키텍처에서 바뀐 점은 상당히 많다. 그 중에서 메인보드에까지 영향을 주는 부분은 QPI와 내장 메모리 컨트롤러이다. 이 두 가지 기능의 변경으로 인해 X58은 기존의 메인보드 칩셋과는 개념이 상당히 달라졌다.
4 시리즈 칩셋까지는 칩셋 구성은 MCH + ICH 였다. 메모리 컨트롤러와 PCI-Express 컨트롤러 등이 MCH로 들어가고, 각종 저속 I/O들이 ICH에 연결되어 DMI 연결을 통해 MCH와 연결되는 구조였다. 그리고 프로세서와 MCH는 FSB로 연결되는 구조를 가지고 있었다.
하지만, 네할렘 아키텍처에서 인텔은 과감히 FSB를 버리고 QPI를 선택했다. 또한 메모리 컨트롤러를 프로세서 안에서 연결시켜서 메모리와 프로세서를 직접 연결시켰다. 기존의 MCH에서 ‘M'이 빠지게 된 것이다. 그래서 X58은 MCH + ICH 조합이 아니라 I/O Hub + ICH 조합이다. 칩셋의 기능이 좀 더 단순화된 것이다.
또한 기존 칩셋이 프로세서와의 연결을 위해 FSB를 사용하던 것과 달리, X58 칩셋은 프로세서와의 연결을 위해 'QPI'를 지원한다. 20비트 Point-to-Point 연결인 QPI는 최근의 추세인 고속 직렬연결 방법을 통해 고클럭을 등에 업고 최대 25.6GB/s의 고속 연결을 이룬다.
QPI는 단순히 프로세서와 I/O Hub를 연결하는 기술은 아니다. 프로세서와 프로세서간을 연결하는 기능도 제공하긴 하지만, 현재 블룸필드는 단일 프로세서만을 지원하고, QPI 연결은 하나만 가능하다. 덕분에 X58 칩셋 또한 2개의 QPI 연결을 지원하지만, 현실적으로 QPI 링크는 현재 하나만을 사용할 수 있다.
▲ 인텔은 FSB의 다음 스텝으로 'QPI'를 선택했다.
X58이 가지는 또 하나의 독특한 점은, 기존의 ICH10 시리즈를 그대로 사용한다는 것이다. 인텔은 지금까지 메인보드 칩셋의 세대가 바뀔 때마다 그와 짝을 이루는 ICH를 꾸준히 바꿔 왔다. 하지만 이번에는 X58을 위해 ICH11을 만든 것이 아니라, 기존 ICH10 시리즈를 그대로 사용했다. 그 이유로는 크게 두 가지가 있다.
첫 번째로는 기존의 ICH10을 바꿀 만큼 외부 상황이 변한 게 없다는 것이다. 기술적인 이슈나 다른 변동사항이 거의 없었고, 이제야 ICH10은 어느 정도 주류로 자리잡고 있는 상황이다. 유저 입장에서는 조금 아쉽지만, 굳이 바꿀 필요도 없는 것이다. 두 번째로는, ICH10 이후 ICH의 행방이 묘연해졌다는 것이다. 당장 X58까지는 ICH를 따로 사용하는 칩셋 조합이지만, 메인스트림급으로 등장할 린필드(Lynnfield) 프로세서에 사용될 P55(코드네임 Ibex Peak)칩은 당장 칩셋이 아니게 된다.
앞으로 나올 'P55'에 대한 정보를 보면 '원칩 솔루션'임을 알 수 있다. 인텔은 기존의 I/O Hub에 ICH까지 모두 통합한 원칩 솔루션으로 나온다고 밝힌 바 있다. 이런 상황에서 새로 ICH를 설계하는 것은 그리 좋은 선택이 아니다. 때문에 DX58SO 메인보드에서는 다소 변칙적인 형태로 레이아웃이 구성되었다. '레거시 프리'이면서, '레거시'적인 모습이 나왔다.
▲ X48 까지만 하더라도, 'MCH'의 존재로 인해 '칩셋'이라는 명칭으로 지칭되었다.
메인보드의 중심이 바뀐 '레이아웃'
X58이 네할렘 아키텍처, 블룸필드 프로세서에 맞춰서 기존의 칩셋과는 다소 역할이 변했다는 것은 이미 언급했다. 그에 따라서 메인보드에서의 칩셋과 프로세서, 메모리 소켓의 위치 또한 기존의 인텔 보드에 비해 상당히 생소하게 바뀌어 있다.
DX58SO 메인보드에서 가장 이채로운 것은, 메모리 소켓의 위치와 I/O Hub인 'X58' 칩의 위치이다. 지금까지 인텔 메인보드의 구조는 프로세서는 상단 백패널 뒤, MCH가 메인보드 정 중앙에 가깝게, 메모리 소켓은 우측 하단에 자리잡는 것이 일반적이었다.
이는 기존의 구조에서는 MCH가 메인보드에서 중심이었다는 것과 무관하지 않다. 모든 데이터는 MCH를 거쳐 가게 되어 있으며, 전기적인 안정성을 위해 MCH는 모든 구성 요소와 적당한, 최대한 짧은 거리를 가져야 하기 때문에 그 위치는 메모리와 프로세서의 중간인 메인보드 정중앙에 자리잡는 것이 일반적이었다.
하지만, 네할렘 아키텍처에서는 이런 구조가 바뀌었다. 메모리 컨트롤러가 프로세서에 들어감으로써, 메인보드에서의 중심점이 프로세서로 넘어가게 된 것이다. 이제 메인보드 설계에 있어서 가장 중요하게 생각해야 될 점은 프로세서와 메모리의 거리, 그리고 프로세서와 I/O 허브의 거리이다. 프로세서가 이제 메인보드의 정 중앙에 자리잡아야 되는 상황이 왔다.
▲ 'DX58SO'는 평소 보던 메인보드의 모습과는 비슷하면서도 다르다.
인텔 DX58SO 메인보드의 레이아웃은 이런 네할렘 아키텍처의 특성을 잘 보여준다. 프로세서는 메인보드의 중앙에 넓은 공간을 차지하고 있다. TDP 130W에 이르는 블룸필드, Core i7 프로세서들을 지원하기 위해 6페이즈 전원부에 방열판까지 장비하고 있고, 기존 LGA775에 비해 커진 LGA 1366 소켓과, 그에 맞게 커진 쿨러 공간을 확보하고 있다.
프로세서 바로 옆에 4개의 메모리 슬롯이 존재하고, 프로세서 아래쪽으로 I/O Hub인 X58 칩이 자리잡고 있다. 잘 보면, 다이어그램을 그린 것처럼 각 구성 요소별로 최단거리 구성이 이루어진 것을 볼 수 있다.
메모리 슬롯은 4개를 장비하고 있다. 트리플 채널을 지원하며, 파란색 슬롯 3개와 검은색 슬롯 1개를 가지고 있다. 파란색 슬롯 3개에 메모리를 장착할 경우 트리플 채널로 동작하며, 검은색 슬롯과 혼용할 경우엔 듀얼 채널로 작동하게 된다. 메모리 세 개를 파란색 슬롯에 두 개, 검은색 슬롯에 하나 장착할 경우에는 싱글 채널이 아니라 기존의 플렉스 구성과 유사하게 듀얼 채널로 동작하게 된다.
현재 블룸필드는 트리플 채널의 메모리 뱅크를 두 개 정도 사용할 수 있고, 이론적으로 메모리 소켓은 6개를 장착할 수 있다. 실제로 서드파티쪽에서 생산하는 메인보드의 경우 6개를 장착한 메인보드가 나오고 있다. 하지만 이 메인보드에서는 4개를 사용했는데 그리 된 이유로는 몇 가지가 있다.
▲ 철저한 '안전성' 중심의 설계가 메모리 모듈 구성에서 드러난다.
첫째로는, 실제로 6개의 모듈을 사용할 경우, 신호의 안정성을 보장하기 힘들다는 것이다. 현재의 메모리 컨트롤러도 풀 뱅크를 사용할 경우에 안정성 문제가 종종 보고되고 있다. 실제 ECC를 사용하지 않는 현재의 개인 유저용 시스템의 경우 4개 이상의 소켓을 사용할 때 안정성을 보장해주기 힘들다.
또한 6개를 사용할 경우 대책 없이 늘어나는 레이턴시 문제도 있다. 3개를 사용할 때에 비해 6개를 사용한 트리플 채널 구성에서는 메모리 레이턴시가 다소 늘어난다. 당장 듀얼 채널 구성에서도 메모리 모듈 개수에 따라 레이턴시가 차이가 나는 모습을 보여주고 있다.
이 때 6개를 모두 사용할 경우에는 상황에 따라 곤란한 경우가 생길 수도 있다. 물론, 현재 레이아웃에서는 자리 확보 또한 쉽지 않았다는 것 또한 하나의 이유가 될 것이다. 전체적인 레이아웃은 기존과는 다른 네할렘 아키텍처의 모습을 잘 보여주고 있다. 또한 프로세서의 쿨러만으로도 주위의 방열판, 메모리들을 모두 패시브 형태로 냉각이 가능한 구조이다.
이런 레이아웃 때문인지, X58 칩 위에는 단순히 방열판을 사용한 쿨링 솔루션이 사용될 뿐이다. 하지만, 제공되는 패키지에는 이 방열판과 조합할 수 있는 작은 쿨링 팬과 팬 조합을 위한 가이드가 제공되고 있다. 만약 정히 패시브 쿨링이 못미덥다는 유저는 메인보드 패키지에 포함될 예정인 쿨러 부속을 직접 조립해서 제품에 더할 수 있다.
▲ 핀 수만 늘었을 뿐, 프로세서 장착 방식 자체는 변함없다.
DX58SO는 당당히 익스트림의 맥을 잇는 메인보드이다. 장착되는 프로세서도 만만치 않지만, 부가기능 또한 만만치 않다. 일단, X58 칩셋 자체에서 제공하는 PCI-Express 2.0 16x 듀얼 구성이 가능하다.
X58은 총 36개의 PCI Express 레인을 제공하고, 이를 사용해 16x 2개와 추가로 4x 한 개가 지원된다. DX58SO에서는 이 모든 레인을 사용할 수가 있는데, PCI-Express 16X 슬롯 두 개와 PCI-Express 4x 슬롯 하나가 장착되어 있다. 이를 통해 AMD의 크로스파이어 구성에 있어서도 대단히 유연한 모습을 보여준다.
이채로웠던 점은 제공되는 PCI-Express 4x 슬롯은 유니버셜 형태로, 16x 슬롯을 가진 카드도 장착이 가능하게 제공된다는 것이다. 일반적으로는 쓸 일이 없겠지만, 만약에 특수한 상황이라면 상당히 유용하게 쓸 수 있을 것이다. 또한 PCI-Express 1x 슬롯 2개와 PCI슬롯 한 개가 ICH10R을 통해 제공되고, 이를 통해 다소의 확장을 할 수 있다.
▲ 슬롯부의 확장성은 'PCI Express 애호가'라면 만족할 만한 수준.
ICH는 기존의 ICH10R을 그대로 사용하는 만큼, 부가기능 자체는 예전에 비해 달라진 게 없다. 하지만 ICH10R이 워낙 화려한 기능을 자랑하는 ICH인 만큼 이를 적절히 살리는 것 만으로도 화려한 부가기능을 가지게 된다.
ICH10R에서 제공되는 RAID지원 SATA-2 포트 6개가 메인보드 위에서 제공된다. 또한 외부 컨트롤러를 통해 백패널에서의 eSATA를 지원한다. 또 하나 특이한 점은, 내장 HD Codec이 기존 4 시리즈에서 사용하던 IDT의 솔루션이 아니라, 리얼텍에서 나온 '889A'가 제공된다는 것이다. 현재까지 나온 내장사운드 코덱들 중 '889A'는 최상위급의 스펙과 성능을 제공한다. 이외에도 기존 인텔 플래그쉽 메인보드들처럼 IEEE-1394포트와 기가비트 네트워크가 기본 제공된다.
바이오스, '세세한 조절'이 가능하다
▲ 오버클럭을 위해서는 꼭 '선택'을 해야한다. 그 때부터는 '사용자 책임'
인텔의 메인보드는 PCB 색으로 구별이 가능하다. 이 메인보드는 익스트림급의 보드이며, 당당하게 검은색 PCB를 사용하고 스컬트레일에도 볼 수 있는 귀여운지 아닌지 모를 캐릭터도 볼 수 있다. 이 익스트림급 메인보드의 진가는 바이오스 셋업에서 볼 수 있다. 일반적으로 메인스트림급 메인보드에서는 찾아볼 수도 없는 자세한 세부 설정이 가능하다는 것은 익스트림 보드만의 장점이다.
X58 칩셋과 블룸필드 프로세서의 경우, 기존의 플랫폼에 비해 기본적인 특성이 많이 바뀌었기 때문에 섣불리 손을 대려고 메뉴를 보다가는 상당히 막막한 상황에 직면하게 된다. 그 정도로 까다로운 설정이 많다. 메뉴를 활성화하기 위해서는 사용자의 동의가 필요한데, 이를 지나 들어가면 상당히 재미있는 설정들을 볼 수 있다.
▲ '몰아주기'라는 단어가 최첨단 프로세서에서도 앞으로는 쓰이게 된다.
네할렘 아키텍처에서 재미있는 기능 중 하나는 ‘터보 모드’이다. 소수의 코어만 사용하는 경우 여기에 모든 자원을 몰아 줘서 싱글 스레드에서의 성능을 높이는 방법인데, 이를 자동으로 사용할 수도 있지만, 이 메뉴에서는 수동 설정이 가능하다.
각 코어 활성화 개수마다 모두 배수를 따로 설정할 수 있으며, 터보 모드 작동시 한계로 작용할 TDP와 TDC까지 직접 설정할 수 있다. 물론 이를 따로 설정할 경우에는 상당히 신중해야 할 것이다.
메모리 설정 또한 상당히 자세한 부분까지 설정이 가능하며, 메모리 전압 설정은 2.50V까지 가능하다. 하지만 알려진 대로 1.65V 이상에서는 프로세서의 안전을 보장할 수 없다고 하니 이 또한 무턱대고 올릴 수는 없다.
Bus Overrides 메뉴에서는 칩셋에 들어가는 전압과 PCI-Express, QPI의 클럭 조절이 가능하다. PCI-Express는 110MHz까지 조절이 가능하고, QPI는 4.8GT/s, 5.866GT/s, 6.4GT/s 설정이 가능하다.
▲ QPI를 통해 '대역폭' 측면에서도 업계 수위의 위치를 인텔이 거머쥐게 되었다.
QPI는 FSB를 대체하여 프로세서와 I/O Hub를 묶는 방법이다. 20bit의 양방향 Point-to-Point 고속 커넥션을 통해 6.4GTransper/s를 달성하며, 이 때 최대 대역폭은 25.6GB/s에 이른다. 이 정도면 기존의 요크필드가 가지는 FSB 1600MHz 시스템에서의 12.8GB/s의 두 배에 달한다. 게다가 이 대역폭에서는 아예 메모리가 차지하는 대역폭이 분리되어 있다.
QPI를 단순히 새로운 FSB 시스템이라고 하지 않는 것은 다 이유가 있다. QPI는 단순히 프로세서와 I/O Hub를 연결하는 데만 쓰이는 것이 아니다. 현재의 블룸필드에는 구현되어 있지 않지만, 네할렘 아키텍처를 사용한 멀티프로세서 시스템의 경우 이 QPI를 통해 프로세서간 직접 연결이 가능하다. 이는 멀티프로세서 시스템에 있어 엄청난 유연성을 제공해 준다.
기존의 제온(Xeon) 기반 멀티프로세서 시스템은 프로세서와 MCH(Memory Transfer Hub)가 FSB로 연결되어 있었고, 프로세서간의 직접 연결을 지원하지 않았다. 모든 데이터는 FSB를 통해 이동하는 형태였다. 물론, 이 문제 또한 2007년 하반기에 이르러서는 칩셋 수준에서 모든 프로세서에 데이터 레인을 독립적으로 할당하는 수준으로 문제를 해결해 왔지만, 이는 완전한 해결책이 아니었다.
하지만 QPI를 사용한 경우, 프로세서간 직접 연결이 가능하다. 네할렘에서는 시스템 내의 모든 프로세서에 대해 직접 연결이 가능한, 스타 토플로지와 유사한 형태의 QPI 연결이 형성된다. 이를 통해 다수의 프로세서와 대량의 메모리를 가지는 특수한 형태의 시스템 구축에 있어 더 쉽게 설계할 수 있으며 더 높은 성능을 기대할 수 있게 되었다.
이 구조를 통해, 앞으로 인텔이 네할렘 아키텍처를 가지고 단지 기존의 엔트리급 서버 시장 뿐 아니라 슈퍼컴퓨터 시장까지 본격적으로 노리는 것이 가능해졌다. 네할렘 아키텍처는 PC나 워크스테이션에서도 발군의 기량을 선보이겠지만, 이 프로세서가 쓰이는 플랫폼은 HPC, 즉 슈퍼컴퓨터 시장이라고 해도 과언이 아니다.
내장된 트리플 채널 DDR3 메모리 컨트롤러
▲ 네할렘 아키텍처에는 트리플 채널 DDR3 메모리 컨트롤러가 내장된다.
네할렘 아키텍처에서는 메모리 컨트롤러가 프로세서에 내장되어, 메모리는 프로세서와 직접 연결된다. 네할렘의 내장 메모리 컨트롤러는 트리플 채널의 DDR3를 통해 기존에 비해 월등히 빠른 반응 속도와 대역폭을 만들어 낼 수 있었다. PC3-8500 DDR3 메모리를 트리플 채널로 구성할 경우, 이론적인 대역폭은 25.6GB/s에 이르게 된다.
내장 메모리 컨트롤러를 가질 경우에, 장점이라면 역시 뛰어난 성능이다. 프로세서와 직접 연결되는 만큼 메모리 접근속도가 빠를 수밖에 없다. 기존의 인텔 시스템이 ‘프로세서 - FSB - 메모리 컨트롤러 - 메모리’ 순으로의 접근이 이루어진 데 반해, 네할렘에서는 이를 단순화시켜서 ‘프로세서 - 메모리 컨트롤러 - 메모리’ 순으로의 접근이 이루어진다.
FSB의 병목 현상에 영향을 받지 않고, 메모리 컨트롤러와의 거리가 짧아진 만큼의 차이는 지연시간의 단축과 실 대역폭에서의 증가로 나타난다. 특히 지연시간의 단축은 기존의 AMD 프로세서 유저들이 언급해 왔던 ‘빠릿함’의 원인이기도 하다. 물론, 장점만 있는 것은 아니다. 단점이라면 성능 이외의 점이 몇 가지 있다. 일단 메모리 규격이 프로세서에 종속된다. DDR2는 이제 끝이다.
또한 메모리의 호환성 문제 등에 있어서도 지금까지와의 개념과는 조금 달라지게 된다. 예전엔 이런 면을 메인보드가 담당했다면 이제는 프로세서가 담당하게 된다. 호환성 문제에서 예전보다 해결이 힘들어지므로, 메모리 구매에 있어 좀 더 검증해야 할 필요성이 생긴다. 그동안 매뉴얼에 있기는 했으나 보는 사람 없던 '메모리 테스트 슈트'나 '호환 메모리 목록'을 꼼꼼히 챙겨볼 때가 온 셈이다.
'네할렘'으로 오면서 가능해진 것들
▲ 네할렘 아키텍처에서는 'SSE'가 4.2 버전으로 업데이트되었다.
워낙 많이 바뀌는 바람에 그다지 눈에 띄지 않게 되어버렸지만, 짚고 넘어가야 할 기능들의 발전이 있다. SSE 4.2와 다소 바뀐 VT, 그리고 앞서 바이오스 화면에서 살짝 엿본 '터보 모드(Turbo Mode)'가 그것이다.
인텔은 펜린 기반의 프로세서와 함께 SSE 4.1을 내놓았었다. 원래는 SSE 4로 내 놓아야 했던 것이지만, 굳이 뒤에 뭔가 붙인 이유는 따로 있었는데, SSE 4.1은 사실 완성판이 아니었다. 추가하지 않은 몇 개의 명령어 셋이 있었고, SSE 4.2는 남은 명령어 셋 중 일부가 추가된 것이다. 그리고 4.2의 명령어셋은 4.1을 완전히 포함하므로 실제 지원 명령어셋 표기의 경우 4.1과 4.2를 병기하지 않고 4.2만을 표시한다.
가상화 기술인 VT에서도 약간의 변화가 있었다. 많은 스레드에서의 가상화가 최적화되었고, 하이퍼스레딩을 지원함에 따라 효율 등이 개선되었다. 성능 면에서는 최대 40% 가량의 성능 향상을 기대할 수 있다고 한다. 기존에 비해 시스템 구조가 바뀐 만큼, 가상화 기술도 그에 따라 변화하였다고 생각하면 될 수준이다.
▲ 코어에 힘을 몰아주는 '터보 부스트' 기능
터보 모드는 다이나믹한 오버클럭 모드의 개념이라 생각하면 된다. 하나의 코어에 사용량이 집중될 경우, TDP 이내에서 지정된 배수 이상으로의 동작이 가능하게 하는 기술이다. 이를 통해 싱글 스레드 수준의 프로그램 실행 성능을 다소 높일 수 있다.
이 기능으로 인한 프로세서의 손상을 막기 위해 변동 폭은 보통 1~2배수 정도로 제한되며, 전체 전력 소모량은 보증 TDP 이내로 제한된다. 테스트 플랫폼에서는 이 터보 모드에서의 배수를 직접 지정할 수 있었으며, 활성화되는 코어 개수별로 배수를 조절 가능했다.
'요크필드'를 완벽히 뛰어넘는 경이로운 성능
네할렘 아키텍쳐와 그 첫 번째 결과물인 블룸필드 프로세서는 위에서 확인했듯이 기존의 인텔 프로세서에 비해 많은 점이 달라졌다. 이번에 등장하는 블룸필드 시리즈, 즉 코어 i7 프로세서는 퍼포먼스급의 920, 940, 익스트림급의 965 Extreme Edition 등이다. 하이엔드 시장에 포지셔닝되며, 차후 다른 코어를 통해 중보급형 제품이 나오게 된다. 지금 당장은 하이엔드와 워크스테이션을 위한 프로세서다.
이번에 테스트한 프로세서는 익스트림급 최상위 프로세서, 'i7 965 Extreme'이다. 920,940과 965 익스트림의 차이는 코어 클럭의 차이와 함께, QPI 속도 차이가 있다. 965는 6.4GT/s, 920과 940은 4.8GT/s를 지원한다. 공통적으로 8MB의 공유 L3 캐시를 가지고 있으며, 130W TDP를 가지고 있고, 현재 이와 조합할 수 있는 메인보드는 인텔의 X58칩셋을 사용한 LGA1366 소켓 메인보드 뿐이다.
'Sandra Lite 2009'의 결과다. 비교 대상은 Sandra 자체 데이터베이스의 QX9770의 결과를 인용했다. 프로세서 연산 결과에서는, 늘어난 스레드의 힘인지 압도적인 차이를 보여준다. 더블스코어는 안되지만 상당히 큰 차이를 보여주고 있음을 볼 수 있다.
기본 연산 성능 뿐 아니라, 멀티미디어 성능에서도 큰 차이를 내며 앞서가고 있다. 이는 늘어난 스레드와 함께 네이티브 쿼드 구조 덕분에 크게 효율이 개선된 것 때문으로 보인다.
3DMark Vantage, 06에서의 프로세서 점수 결과이다. 비교 대상은 Q9400이다. Q9400은 테스트 당시 2.66GHz 정규 클럭으로 테스트했다. 그래픽 카드에서 지원하는 피직스 물리가속 옵션은 끈 상태로 테스트한 결과이다.
결과는 상당히 놀랍다. 클럭 차이를 감안한다고 해도, 3DMark 06에서는 Q9400에 비해 37%, Vantage에서는 아예 더블 스코어에 가까운 86%의 차이를 보여준다. 이 정도면, 기존의 요크필드 기반에서는 도저히 따라잡을 수 없는 성능 차이이다.
Cinebench R10에서는 재미있는 결과를 얻을 수 있었다. 단일 스레드의 경우 의외로 큰 차이를 보이지 않았다. 클럭 차이 20%를 감안할 경우, Q9400을 오버클럭하여 3.2GHz로 테스트하면 싱글 스레드에서는 요크필드가 블룸필드를 턱밑까지 따라온다.
하지만, 다중 스레드에서는 큰 격차가 벌어지게 되는데, 이는 SMT 기술의 힘이다. 4 코어에 4 스레드 시스템인 요크필드의 경우, 4 스레드로 작업하면 실제 작업 효율은 3.4배를 조금 넘는 수준이지만, 4 코어 8 스레드인 블룸필드는 약 4.2배 정도의 효율을 보여준다.
8 스레드를 생각하면 효율이 그리 좋은 편은 아니지만, 4 코어를 생각하면 이는 코어 개수의 한계를 넘기는 효율이다. 덕분에 4 코어 블룸필드는 4 코어의 한계를 넘을 수 있는 것이다.
SuperPI는 단일 코어, 단일 스레드 상황에서의 연산 성능을 가장 잘 보여주는 전형적인 단일 스레드 테스트이다. 여기서는 Q9400 프로세서를 '3.2GHz'로 오버클럭한 시스템을 비교 대상에 포함시켰다. 단위는 ‘초’이며, 수치는 작을수록 좋다.
결과는, 같은 클럭에서도 블룸필드가 요크필드에 비해 15% 가량 빠르다. 단순 계산 성능에서 이 정도의 차이가 난다는 것은, 기존의 요크필드에 비해 클럭당 연산 성능의 개선이 있었음을 잘 보여주는 것이다.
프로세서의 힘이 가장 잘 드러나는 곳 중 하나는 파일의 압축 및 해제다. 시중에서 많이 사용하고 있는 WinRAR 애플리케이션에서는 이 성능을 간단히 볼 수 있도록 간단한 벤치마크 툴을 제공하고 있다. 이 툴을 이용해 간단히 테스트했다. 비교대상은 2.66GHz의 Q9400 시스템이다. 단위는 KB/s이며 클수록 좋다.
기본적으로 멀티스레드를 사용하도록 설정했으며, 결과는 그래프와 같다. 그래프에 나타난 대로, 더블 스코어를 넘는 차이를 보여주고 있다. 이는 프로세서 성능 뿐 아니라 메모리 컨트롤러로 인한 성능 이득까지 반영된 것으로 볼 수 있다. 덕분에 기존의 쿼드 코어 프로세서를 가볍게 더블 스코어로 제치는 괴력을 보여준다.
내장 메모리 컨트롤러의 놀라운 힘!
네할렘 아키텍처에서 가장 크게 바뀐 부분 중 하나가 프로세서에 내장된 메모리 컨트롤러라는 점은 이미 위에서 언급한 바 있다. 인텔은 네할렘 아키텍처에서 처음으로 메모리 컨트롤러를 프로세서 안에 집어넣는 시도를 했다.
또한 기존의 듀얼 채널을 넘어서 DDR3를 트리플 채널로 묶었다. 현재 블룸필드는 PC3-8500 규격의 메모리를 정식적으로 지원하고, 이 메모리를 트리플 채널로 구성할 경우 이론적으로 최대 대역폭은 25.6GB/s에 달한다.
그럼 실제 테스트 결과를 보도록 하자. Sandra Lite 2009를 사용한 메모리 대역폭 테스트이다. 비교군은 네 가지로 구성되어 있다. 트리플 채널 DDR3, 모듈 3개를 사용한 플렉스 듀얼채널 DDR3, 모듈 두 개로 구성한 듀얼채널 DDR3, 그리고 현재 사용되는 메인보드 구성을 기준으로 MCH에서의 FSB 1333MHz에서의 비동기 DDR2 800 듀얼 채널 구성이다. DDR2 결과에는 P43이 사용되었다.
메모리 대역폭은 기존의 DDR2 기반의 대역폭을 아득하게 추월한다. 아예 기존의 FSB 기반 시스템의 전체 대역폭을 능가하는 메모리 대역폭을 보여준다. 이런 것이 프로세서 내장 메모리 컨트롤러의 힘이다. 프로세서가 메모리와 직결되므로 시스템 대역폭에 신경 쓸 필요 없이 최대한의 성능을 내 올 수 있는 것이다.
듀얼 채널 구성에서조차 기존의 DDR2 메모리 시스템의 대역폭을 두 배 이상으로 추월한다. 또한 트리플 채널 구성의 경우 18GB/s에 가까운 놀라운 대역폭을 보여준다. 또한 재미있는 것은 듀얼 채널에서도 모듈 3개를 사용한 플렉스 구성의 경우에 두 개의 모듈을 사용하는 듀얼 채널에 비해서도 다소 성능이 떨어진다는 것이다.
이는 메모리 모듈이 늘어남과 비대칭 형태의 구성에 따른 불이익이라고 볼 수 있다. 물론 메모리 세 개를 사용하면서 플렉스 구성을 하는 유저는 거의 없을 것이라 생각된다.
Everest 4.60.1500을 사용한 메모리 테스트 결과이다. 이 테스트에서는 다소 문제가 있었는데, 트리플 채널에서의 전송률 테스트 결과가 다소 비정상적으로 나왔다. 테스트 당시 베타버전까지 이 문제는 해결이 되지 않은 상태이다.
듀얼 채널에서의 전송률 결과와 Sandra 테스트 결과는 비슷하게 나오므로 실 전송률은 Sandra에서의 결과를 참고하면 될 것이다. 여전히 기존의 듀얼채널 DDR2 메모리 시스템과 비교하면 두 배 가까운 성능을 보여주고 있다.
이 테스트에서 유심히 봐야 할 것은 Latency 테스트 항목인데, 이는 메모리 시스템의 전체적인 반응 속도를 보는 테스트이다. 단위는 ns 단위이다. 트리플 채널의 경우에 이 수치가 41ns 정도이다. 이 수치만 해도 이미 P43과 듀얼 채널 DDR2가 보여주는 '75ns'에 비해서는 절반 수준의 빠른 반응이다.
하지만, 이를 듀얼 채널로 구성했을 때는 지연시간이 더 줄어들어서 30ns대에 진입한다. 이는 지금까지 인텔 시스템에서는 보기가 불가능에 가까울 정도의 수치이다. 특히, 두 개의 모듈만을 사용할 경우에는 메모리의 타이밍 자체가 더 공격적으로 세팅되는 모습을 볼 수 있었다. 이런 특성을 잘 활용한다면 메모리 레이턴시에 민감한 애플리케이션을 다룰 때 도움이 될 것으로 보인다.
발전된 전력관리, 네할렘에서 빛난다
네할렘 아키텍처에서는 성능 뿐 아니라 소비전력에 대한 부분도 꽤 많은 신경을 썼다. 인텔이 최근 ‘그린 PC’를 언급하며 소비전력에 대해서도 큰 관심을 쏟고 있는 만큼, 새로 나오는 프로세서 또한 이를 신경썼음은 당연히 예상할 수 있다.
테스트한 Core i7 965는 말 그대로 Extreme Edition이다. 전력소비에 대한 배려는 한 수 접고, 최고의 성능을 보여주기 위한 플래그쉽 모델인 것이다. 하지만, 그럼에도 전력관리에 대해서는 상당히 효과적인 모습을 보여주고 있다.
물론 원체 TDP가 130W에 이르는 ‘괴물’급인 만큼 기존의 요크필드 엔트리급만큼 적게 먹는 것은 아니다. 기존의 플래그쉽에 비해 전력소비 자체가 스마트해졌다는 의미 정도로 보면 된다.
Idle 상태에서의 소비전력은 127W 수준이다. 이 정도면 아직도 많은 인기를 끌고 있는 Q6600보다 조금 더 많이 먹는 정도이다. 또한 기존의 요크필드 기반 익스트림 시리즈와 비교했을 때는 더 적을 수도 있다. 전력관리가 사용되지 않는 바이오스 진입시에는 150W 수준으로 올라가는데, 아이들링시의 소비전력과는 20W가 넘게 차이난다.
3DMark Vantage 구동시에는 GPU와 함께 구동시에는 160W 정도의 소비 전력을 보인다. 프로세서의 능력이 강력한 만큼, 게임 데모 벤치마크 정도에서는 크게 무리하지 않고 처리해내는 모습을 보인다.
프로세서를 집중적으로 사용하는 경우엔 시스템 소비전력이 200W를 넘어간다. 기본적으로 이 프로세서의 TDP가 130W라는 것을 생각할 때, 이 정도는 납득할 만한 수준이다. 3DMark Vantage의 프로세서 물리 연산 테스트시 소비전력은 218W, 8스레드 Prime95 구동시엔 245W의 전력소비를 보였다.
여기서 주목할 부분은 풀로드시와 아이들링시의 전력 소비량이 120W 가량 난다는 점이다. 물론 이 프로세서가 전력소모가 심하다고 할 수도 있겠다. 하지만 성능대비 전력소비량을 생각할 때는 오히려 요크필드 시절보다 우세하다. 또한 풀로드시의 전력소비량에 비해 아이들링시의 전력소비량이 매우 낮은 수준인데, 이는 안정화된 45nm 공정과 진보된 전원 관리 기능이 영향을 미친 덕분으로 보인다.
발열 면에서도 좋은 모습을 보였는데, 기본적으로 제공되는 쿨러가 구리심이 박히고 방열판 절반이 구리로 만들어진, 왠만한 사제 쿨러보다 좋은 쿨러라는 것도 작용하겠지만 이 쿨러가 테스트를 진행하면서 단 한번도 1000rpm 이상으로 회전한 적이 없다. 메인보드 모니터링 기능을 통해 보았을 때, 풀로드를 걸어도 60도 근처에 가지 않는다. 대부분의 테스트에서는 40도 후반의 온도를 계속 유지했다.
'최고의 성능'은 플래그쉽 모델의 숙명
플래그쉽 모델은 실제로 대중화를 위해 내 놓는 물건이 아니다. 하나의 플랫폼이 새로 등장하면 일반적으로 플래그쉽 모델이 일단 먼저 나오는데, 이는 하나의 플랫폼의 성능을 기존 플랫폼과 비교해 확실하게 보여줌으로써, 뒤이어 나올 메인스트림급 모델을 기존의 라인업과 완벽히 차별화하는 얼굴마담 정도의 역할을 한다.
'DX58SO' 메인보드는 하이엔드 시장을 노리기에 있어, 성능이나 기능성 모두 아쉬울 것이 없다. 블룸필드 프로세서는 현재 최고의 성능을 보여주는 요크필드 계열의 프로세서를 성능 면에서 완벽히 제압이 가능하며, 프로세서 내장 메모리 컨트롤러는 기존과 비교 자체를 거부한다. 플랫폼의 성능 면에서는 어떻게 봐도 최고 수준이다.
플래그쉽의 숙명은 새로운 플래그쉽이 나오기 전까지는 그 자리를 지켜야 한다는 것이다. 이 DX58SO는 최고의 성능을 원하는 유저를 위한, 최고의 자리를 지켜야 할 숙명을 가진 메인보드이다. 또한 이 메인보드는 자리를 지키기 위한 충분한 능력 또한 갖추고 있다. 익스트림의 호칭과 마스코트가 아깝지 않은, 그런 메인보드가 바로 이 'DX58SO' 메인보드다.
[기사제공 : 아크로팬 www.acrofan.com]
[기사의 저작권은 아크로팬에 있습니다. 기사 내용의 무단 전제 및 재배포는 금지되어 있습니다.]