Goolge_adsense_default_ad




차세대 모바일 기기를 위한 메모리 - Wide I/O 메모리란 이런것!


지난 글에서 LPDDR3에 관한 얘기를 했으니 이번에는 차세대 메모리의 표준인 Wide I/O에 대한 이야기를 해 보고자 합니다. LPDDR3는 스마트폰이나 태블릿과 같은 모바일 기기를 고려하여 JEDEC에서 표준을 정했기 때문에 Package-on-Package (PoP)에 적용하는 것을 주로 고려했습니다. PoP의 경우 PC의 DIMM 모듈에 비해 프로세서와 메모리간의 거리가 매우 짧아 신호의 왜곡이 적어 이를 보상하기 위한 termination logic과 DLL을 없앨 수 있고 메모리-프로세서를 연결하는 wire의 capcitance도 작아 각 wire의 값이 1->0, 0->1로 변할 때 소모하는 전력도 줄일 수 있는 장점이 있습니다. 

아래 그림은 reference [1]에서 가져온 그림으로 LPDDR3는 아니지만, LPDDR2와 DDR3의 메모리 대역폭 사용량(utilization)에 따른 1-bit 전송에 필요한 에너지를 비교하고 있습니다. 파란색으로 표시된 LPDDR2가 빨간색으로 표시된 DDR3에 비해서 훨씩 적은 에너지를 사용함을 알 수 있는데, DDR3의 경우에는 data를 전송하지 않는 동안에도 termination logic과 DLL이 켜져 있어야 하기 때문에 대역폭을 적게 사용할 경우 data 전송에 사용하는 에너지 보다 주변 logic을 켜놓기 위한 전력의 상대적인 비율이 커져서 에너지 효율이 떨어지는 단점도 있습니다. (빨간 그래프의 왼쪽 부분) LPDDR3의 경우 LPDDR2와 동일한 전압을 사용하고 인터페이스 로직이 크게 바뀌지 않아 위의 그래프에서 파란선이 12.8GB/s 지점까지 확장 되는 것 이외에는 거의 동일하다고 보시면 될 것 같습니다. 

LPDDR2 - x16, 400MHz, DDR3 - x8, 800MHz, 3:1 read/write 비율 가정


위의 그래프에서 보이는 바와 같이 DDR3에 비해 전력 소모를 상당히 줄이면서도 크게 떨어지지 않는 메모리 대역폭을 제공하는 LPDDR3 메모리이지만 모바일 기기들의 성능은 계속 향상되고 있고 이 때문에 많은 사람들이 보다 낮은 전력을 사용하면서도 큰 대역폭을 제공하는 메모리를 필요로 하고 있습니다. LPDDR3의 한계 중의 하나는 PoP를 구성하려면 아래 왼쪽 그림과 같이 패키지의 가운데는 Application Processor(AP)를 위한 공간으로 비워두어야 하기 때문에 bit-width를 늘리기 위해 패키지의 가운데 부분에 ball을 배치할 수 없고, 이 때문에 64-bit 이상의 bit-width를 제공하지 않아 메모리 대역폭 향상에 제한이 있다는 것입니다. 이러한 문제를 해결하기 위해 하나의 패키지 안에서 AP위에 여러개의 메모리 실리콘을 바로 쌓는 stacked-die 설계가 제안 되었습니다. 패키지의 볼에 비해 훨씬 작은 크기의 Through-Silicon Via(TSV)를 통해 메모리를 연결하기 때문에 I/O 개수에 대한 제약이 훨씬 줄어들어 64-bit 보다 훨씬 넓은 512-bit의 data width를 제공할 수 있게 되었는데 stacked-die 메모리 설계를 위한 JEDEC의 표준이 Wide-I/O Memory 입니다. (JEDEC 문서번호 - JESD229)



먼저 Wide I/O와 LPDDR3를 간단히 비교해 보도록 하겠습니다. 먼저 제일 아랫줄의 최대 대역폭을 보시면 Wide I/O 메모리나 LPDDR3나 동일한 최대 대역폭을 제공하는 것을 볼 수 있습니다. 현재는 대역폭 상의 장점이 크게 보이지는 않습니다만, Wide I/O는 아직 DDR이 아닌 SDR을 채용하고 있어 속도를 향상 시킬 여지가 많은 반면 LPDDR3는 기술상 속도 향상의 한계 지점에 도달해 있는 점은 감안하여 주시기 바랍니다. 두 메모리를 비교해 보면 최대 bit-width로 구성했을 경우 Wide-I/O가 8배 넓은 data-width를 제공하기 때문에 4배 느린 동작속도에서 (1066MHz vs. 266MHz) DDR을 사용하지 않고 SDR 모드만으로 LPDDR3와 동일한 대역폭을 제공할 수 있는 차이점이 있습니다. Wide I/O 메모리의 느려진 동작속도 덕분에 메모리와 프로세서 인터페이스의 timing margin이 늘어나 설계가 용이하고 온도와 전압 변화에 따른 트랜지스터의 속도 변화를 보상하는 회로를 설계하는 노력을 줄일 수 있는 점은 부수적인 장점입니다. 하지만 가장 큰 장점은 Wide I/O 메모리가 LPDDR3와 동일한 대역폭을 제공하면서도 상당히 줄어든 전력을 소모한다는 점 입니다. 
(2014년 7월 10일 수정 - LPDDR3의 최대 대역폭 부분에 오타를 발견했습니다. 4-Channel이 아니라 2-Channel 입니다;;)


Wide I/O 메모리의 줄어든 전력소모는 Through-Silicon Via (TSV) 기술의 채용에서 오는 것이 가장 크기 때문에 TSV에 대해 간단히 짚고 넘어가도록 하겠습니다. 아래의 그림은 하나의 실리콘위에 여러개의 메모리를 쌓은 stacked-memory는 아니지만, TSV와 PoP 패키지 ball(BGA Ball)의 상대적인 크기 비교를 잘 보여주고 있기에 가져온 그림 입니다. 그림 하단의 BGA ball과 (패키지를 눈으로 봤을 때 보이는 부분입니다.) 상단의 TSV, 그리고 TSV를 이용하여 chip들을 연결하기 위한 Micro-Bump의 상대적인 크기를 비교할 수 있는데 Micro Bump의 지름이 10배 이상 작은 것을 확인하실 수 있습니다. 중간의 C4 bump는 Micro-bump와 BGA ball의 중간 크기를 가지고 있는데 실리콘 die와 패키지를 연결할 때 사용 됩니다. 사용처와 크기를 정리하면 다음과 같습니다.

Micro Bump - Silicon die와 Silicon die를 위아래로 연결할 때 사용 (직경 5~45um)
        TSV             - Silicon die를 여러장 쌓기 위해 die를 수직으로 관통하는 연결을 제공 (지름 5~100um)
C4 Bump   - Silicon die와 패키지 substrate를 연결할 때 사용 (직경 40~240um)
        BGA Ball     - 패키지와 PCB를 연결할 때 사용 (직경 400~800um)

원본 출처 - 3DIC & TSV interconnects - SEMICON Taiwan (클릭하면 크게 보입니다.)


위의 그림을 염두에 두고 프로세서와 메모리를 연결할 때, PoP를 통해 LPDDR3를 연결할 경우와 TSV를 통해 Wide I/O를 연결할 경우를 생각해 보면 연결 경로에 아래와 같은 엄청난 차이가 발생함을 알 수 있습니다.

Wide I/O 메모리      : 프로세서 -> Micro-Bump -> 메모리(1층) -> TSV -> Micro Bump -> 메모리(2층) -> ...
LPDDR3 POP 메모리 : 프로세서 -> C4 Bump -> 패키지 substrate -> BGA ball -> 패키지 substrate -> C4 Bump -> 메모리

이러한 연결 경로의 차이는 I/O capacitance 의 차이로 나타나게 됩니다. 아래는 Cadence 사의 자료중의 일부를 캡쳐한 것인데 2012년 자료라 LPDDR3 800MHz와 Wide I/O 200MHz를 비교하고 있습니다. 5번째 줄의 I/O power 항목을 살펴보면, I/O power는 동작 속도, 전압, I/O capacitance(c), I/O 갯수에 비례하는데 두 메모리 모두 1.2V의 전압을 사용하고 LPDDR3의 4배 빠른 동작속도와 DDR을 사용한다는 점이 Wide I/O의 8배 많은 I/O 갯수와 서로 상쇄되어 두 메모리의 I/O power차이를 만드는 항목은 I/O capacitance 만이 남게 됩니다. 연결 경로의 길이와 중간에 거치는 bump/ball의 크기 차이로 LPDDR3의 경우 1-bit당 1.8pF의 I/O capacitance를 가지는 반면 Wide-I/O 메모리는 1-bit당 0.5 pF의 I/O capacitance를 가지게 되는데 이는 바로 메모리가 프로세서와 data를 주고 받을 때 인터페이스에서 소비되는 전력의 차이로 나타나게 됩니다. 메모리코어 자체는 비슷한 전력을 사용하더라도 메모리-프로세서간 인터페이스에서는 Wide I/O가 LPDDR3에 비해 30% 정도 밖에 전력을 소비하지 않게 되는 것이지요. 


일단 어떤 이유로 Wide I/O가 LPDDR3에 비해 적은 전력을 소모하는지 알았으니 실제 동작에서 어느 정도의 전력을 소모하는지 궁금해서 자료를 좀 더 찾아 보았습니다. 삼성전자에서 2012년에 발표한 논문을 보면 [2], Table II 에서 LPDDR2와 Wide-I/O의 전력소모를 비교 하고 있습니다. 또 간접비교라서 아쉽긴 합니다만 논문의 숫자를 그대로 사용하지 않고 용량을 보정해 보면 LPDDR2가 6.4GB/s의 속도로 data를 읽을 때 661.2mW를 사용하고 Wide-I/O 메모리가 12.8GB/s 의 속도를 data를 읽을 때 367.5mW의 전력을 사용함을 알 수 있습니다. LPDDR2dptj LPDDR3로 이행할 때 속도이외에 전력소모면에서의 장점은 10% 이내이기 때문에 LPDDR3가 12.8GB/s를 전송한다고 가정하면 대략 1.2W 정도의 엄청난(?) 전력을 소모한다고 생각하 수 있습니다. 물론 메모리가 항상 최대속도로 사용되지는 않으니 두 메모리 모두 실제로는 이보다 적은 전력을 소모하겠습니다만, 최대 속도로 메모리를 읽을 때 Wide-I/O 메모리는 LPDDR3에 비해 대략 25% 정도만의 전력을 소모한다고 생각할 수 있습니다. 

마지막으로 현재 Wide-I/O 메모리의 개발 상황을 언급하면서 글을 마무리 하도록 하겠습니다. 제가 알기로 지금까지 출시된 Wide-I/O를 사용한 양산 칩은 소니의 PS Vita에 들어간 칩이 유일한 것으로 알고 있습니다. (관련 링크) 2011년 말에 Wide-I/O의 JEDEC표준이 정해졌고 2011년 말에 PS Vita의 발표가 있었으니 엄청나게 빠른 적용이었는데 당시는 LPDDR3의 대역폭이 지금 만큼 나오지 않던 시점이라 3D 그래픽 처리를 위한 메모리 대역폭의 확보를 위해 어렵지만 과감한 선택을 했던것으로 생각 됩니다. 삼성전자의 경우 2013년 말에 Widcon 기술이라는 이름으로 기술 자체는 발표를 해 놓은 상황인데 (관련 링크) 아직 이 기술을 적용한 양산 제품은 나오지 않고 있는 것으로 알고 있습니다. 아마도 올해 말에 발표되는 새 태블릿이나 패블릿 제품에 적용할 가능성이 있어 보이는데 나와 봐야 알겠지요. 어쩌면 애플이 조용히 준비하고 있다가 아이폰 6에 적용할지도 모를 일이구요. 

Wide-I/O가 적용된 제품을 양산하는데 가장 큰 걸림돌은 TSV 적용에 따른 수율 문제가 가장 큽니다. TSV의 Micro bump가 워낙 작은데다 pin도 많아서 제조 공정에서 접촉불량이 없이 여러개의 메모리칩을 쌓는데 상당한 어려움이 있는 것으로 알고 있습니다. 또한 Micro bump의 작은 크기 때문에 기존의 장비로는 패키징 하기 전의 실리콘 die 상태에서 테스트하기도 어려워서 이를 해결할 필요도 있습니다. 아래는 삼성전자에서 발표한 Wide I/O 메모리의 칩 사진인데 불량 검사를 위해 일상의 동작을 위한 Micro bump array (빨간색 네모)이외에 2배 이상 큰 pitch의 test pad array(파란색 네모 영역)를 따로 가지고 있는 것을 보실 수 있습니다. 이상 긴글 읽어 주셔서 감사합니다. 



References
[1] Krishna T., et al.,  “Towards Energy-ProportionalDatacenter Memory with Mobile DRAM”, ISCA ‘12, Proc. of International Symposium of Computer Architecture, pp. 37-48, June 2012.
[2] Jung-Sik Kim, et al., "A 1.2V 12.8GB/s 2Gb Mobile Wide-I/O DRAM With 4x128 I/Os Using TSV Based Stacking", IEEE Journal of Solid-State Circuits, Vol. 47, Issue 1, pp. 107-116, 2012



덧글

댓글 입력 영역