이번 포스팅에서는 AI 시장에서 점점 더 중요해지고 있는 HBM Test에 대해 이야기해보겠습니다. HBM에서의 Test는 단순한 품질 검증이 아니라, 전체 시스템의 신뢰성을 좌우하는 핵심 과정입니다. 만약 문제가 있는 Basedie가 Wafer Test 단계에서 제대로 Screen되지 않은 채 Coredie가 적층되거나, 결함이 있는 Basedie와 Coredie(DRAM)가 함께 적층된 상태에서 GPU와 연결된다면, 그로 인한 손실은 매우 커질 수 있습니다.

 

따라서 불량이 있는 Die를 조기에 검출하는 것은 생산성과 비용 측면에서 모두 필수적인 과정입니다. 이번 포스팅에서는 HBM의 가장 중요한 Function 중 하나인 데이터 입출력 관련한 TEST 시퀀스에 대해 소개해보겠습니다.

 

① A 1.2V 8Gb 8-channel 128GB/s High Bandwidth Memory(HBM) Stacked DRAM With Effective I/O Test Circuits

1. HBM의 데이터 전달 과정

HBM의 Basedie는 GPU와 DRAM 사이에서 데이터를 주고받는 연결 역할을 하는 다이로, Buffer Layer라고도 부릅니다. GPU와 Basedie 간의 데이터 전송 부분을 PHY라고 하며, GPU에서 전달된 데이터(AWORD, DQ)는 PHY를 거쳐 TSV를 통해 DRAM으로 이동합니다.

 

DRAM에 저장된 데이터(DQ) 또한 TSV를 통해 Basedie로 전달되고, 다시 PHY를 거쳐 GPU로 이동합니다. 데이터(DQ)는 양방향으로 이동하지만, 주소 및 명령어와 관련된 AWORD는 GPU에서 DRAM으로만 전달됩니다. 즉, Basedie의 핵심 역할은 PHY와 TSV 사이에서 DQ와 AWORD 신호를 정확하고 빠르게 전달하는 것입니다. 최근 Logic die를 사용하는 것도 이러한 신호를 빠르게 전달하기 위함입니다.

그림 1. HBM 구조

2. HBM Basedie

해당 경로를 검증하는 테스트에 대해 살펴보기 전에 Basedie의 구조를 좀 더 자세히 보겠습니다. Basedie는 한쪽에 GPU와 연결되는 PHY 영역이 있고, 중심부에는 DRAM과 연결되는 TSV 영역이 있습니다. 또 다른 한쪽에는 테스트를 위한 IEEE1500과 DA 영역이 있습니다.

 

DA는 Direct Access의 약자로, 실제 HBM은 GPU와 연결되어 동작하지만, GPU와 연결되기 전에 수율 테스트를 진행해야 합니다. GPU와 연결되지 않은 상태에서 수율 테스트를 수행하기 위해 DA와 IEEE1500을 통해 데이터를 입력하고 출력값을 확인하여 문제가 없는지 평가하게 됩니다.

그림 2. HBM Basedie 구조 및 각 영역별 역할

3. HBM 데이터 입출력 TEST

Data를 전달해주고 받는 GPU가 없는 상태에서 DA를 통한 데이터 입출력 검증 회로와 시퀀스는 다음과 같습니다. 만약 입력 데이터와 출력 데이터가 동일하지 않거나 출력되지 않는다면, Basedie 내 입출력 경로 문제이거나 Coredie의 문제로 판단할 수 있습니다.

 

① DA로 부터 데이터가 입력되어 Test Register에 저장되고, TX를 통해 DQ(PHY)로 전송
   [해석] GPU에서 PHY로 데이터가 전송되는 경우를 구현

 

② 이후 RX로 들어가 Write Register에 저장된 뒤, DRAM으로 데이터가 전
   [해석] PHY에서 DRAM으로 데이터가 전송되는 경우를 구현

 

③ DRAM에 저장된 데이터는 Read Register를 통해 Comparator로 이동
   [해석] DRAM에 저장된 데이터가 PHY로 전송되는 경우를 구현

 

④ Test Register에 저장된 Write Data와 읽은 Read Data를 비교한 뒤, 결과를 DA 포트로 전달
   [해석] 입출력 데이터가 동일한지를 비교하여 Pass/Fail 판정

그림 3. HBM Data 입출력 Test 회로 및 시퀀스

 

이 테스트는 정상 수행 여부뿐만 아니라 속도도 매우 중요합니다. 최근 기사에서 자주 언급되는 HBM의 속도는 바로 이 테스트 속도와 밀접한 관련이 있습니다. 따라서 Function Test로 기능이 정상인지 확인한 후, Speed Test를 추가로 진행합니다.

 

HBM3E 기준 JEDEC 표준에 따라 최고 데이터 전송 속도는 초당 6.4Gbps이며, HBM4는 8.0Gbps입니다. 점점 빨라지는 입출력 속도를 맞추기 위해 Basedie는 DRAM 공정이 아닌 Logic 공정을 적용하고 있습니다. 삼성은 Samsung Foundry 4nm 공정을, SK하이닉스는 TSMC 12nm 공정을 사용하는 것으로 알려져 있습니다.

그림 4. HBM Speed 및 Logic 공정 적용 관련 기사


결론 및 의견

HBM의 수율 검증은 여러 단계로 진행됩니다. 일반적으로 Basedie와 Coredie(DRAM) 각각의 Wafer 수율을 먼저 확인한 뒤, Basedie 위에 Coredie를 적층하여 최종 수율 검증을 수행하게 됩니다. 위에서 소개한 TEST 시퀀스는 Basedie 위에 Coredie를 적층했을 때 TEST 입니다.

 

Basedie Wafer 수율 Test를 진행할 때는 Coredie(DRAM)이 없는 상태입니다. 따라서 실제 DRAM에 데이터를 읽고 쓰는 것이 아니라, Basedie 내부의 Read/Write Register를 통해 Read/Write 동작을 검증하게 됩니다. 이때 한 가지 문제가 발생합니다. DQ는 GPU와 DRAM 간 양방향으로 데이터를 주고받기 때문에 Basedie에서 Read와 Write가 모두 가능하지만, AWORD는 GPU에서 DRAM으로만 전달되는 단방향 신호이므로 Basedie에서는 Write만 가능(Read Register가 없음)합니다. 즉, Read 동작이 존재하지 않아 AWORD 경로는 Basedie Wafer 수율 Test 단계에서는 검증되지 않으며, Coredie가 적층된 이후에만 테스트가 가능합니다.

 

또한 Basedie와 DRAM을 연결해주는 TSV에서 불량이 있을 경우, Wafer Test 단계에서는 실제로 Coredie로 데이터가 전달되지 않기 때문에 검출이 어렵습니다. 앞으로는 이러한 부분까지 검증이 가능하도록 회로 설계 단계에서 고려하는 것이 중요합니다.

 

+ Recent posts