테슬라, 엑사플롭 AI 슈퍼컴퓨터 ‘도조(Dojo)’ 공개핫칩스 컨퍼런스에서 최대 20 엑사플롭(ExaFLOPS) AI 슈퍼컴퓨터 공개독자적으로 설계한 (Dojo training tile) 칩 개발대규모 AI 및 자율주행 신경망 훈련을 위한 맞춤형 플랫폼 테슬라가 대규모 AI 및 자율주행 신경망 훈련을 위해 자체개발한 슈퍼컴퓨터 ‘도조(Dojo)’를 공개했다.(사진=테슬라) 테슬라(Tesla)가 대규모 인공지능(AI) 및 자율주행 신경망 훈련을 위해 자체개발한 슈퍼컴퓨터 ‘도조(Dojo)’를 공개했다.도조는 AI 머신 러닝(ML), 특히 차량에서 나오는 비디오 데이터를 사용한 비디오 훈련(Training)을 위해 구축된 테슬라의 맞춤형 슈퍼컴퓨터 플랫폼이다. 맞춤형 슈퍼컴퓨터는 자율주행을 지원하는 컴퓨터 비전 기술에 중요한 비디오 데이터를 사용해 신경망을 훈련하는 테슬라의 능력을 향상시킬 것으로 예상된다.테슬라는 24일(현지시간) 핫칩스(Hot Chips 34) 컨퍼런스에서 독자적으로 설계한 칩을 사용한 도조 AI 슈퍼컴퓨터의 세부사항을 발표했다고 더레지스터(The Register)가 24일(현지시간) 보도했다.도조는 기존의 슈퍼컴퓨터와 달리 특정 머신 러닝 알고리즘을 대규모로 실행할 목적으로 컴퓨팅, 네트워킹 및 I/O(입/출력) 실리콘에서 ISA(명령 세트 아키텍처), 전력 공급, 포장 및 냉각까지 포괄하는 맞춤형 아키텍처로 구축됐다.출처 : AI타임스(https://www.aitimes.com)테슬라의 도조 훈련 타일.(사진=테슬라)출처 : AI타임스(https://www.aitimes.com) 테슬라는 먼저 15kW 수냉식 패키지에서 FP32(32비트 부동소수점) 성능에서 556 TFLOPS를 처리할 수 있는 반 입방 피트의 독립형 컴퓨팅 클러스터인 도조 훈련 타일(training tile)을 개발했다. 각 타일에는 11GB의 SRAM이 장착되어 있으며 전체 스택에서 맞춤형 전송 프로토콜을 사용하여 9TB/s 패브릭을 통해 연결된다.가네시 벤카타라마난(Ganesh Venkataramanan) 테슬라 하드웨어 엔지니어링 수석 이사는 "이 훈련 타일은 컴퓨터에서 메모리, 전력 공급, 통신에 이르기까지 비교할 수 없는 통합을 제공한다"고 말했다.훈련 타일의 핵심은 TSMC의 7nm 공정을 기반으로 하는 500억 개의 트랜지스터 다이(die)인 테슬라의 D1이다. 각 D1이 400W의 TDP(Thermal Design Power)에서 22 TFLOPS의 FP32 성능을 낼 수 있다. 출처 : AI타임스(https://www.aitimes.com)테슬라의 도조 D1 다이.(사진=테슬라)출처 : AI타임스(https://www.aitimes.com) 벤카타라마난은 "트랜지스터를 밀리미터 제곱으로 비교한다면 이것은 아마도 현존하는 최첨단일 것"이라고 말했다.테슬라는 그런 다음 25개의 D1을 TSMC의 시스템 온 웨이퍼(system-on-wafer) 기술을 사용해 패키징하고 "매우 짧은 대기 시간과 매우 높은 대역폭으로 엄청난 양의 컴퓨팅 통합을 달성"했다고 말했다.또한 전원을 실리콘에 인접하게 배치하는 일반적인 접근 방식은 시스템-온-웨이퍼 설계와 수직 스택 아키텍처에는 비효율적이기 때문에 테슬라는 다이 바닥을 통해 직접 전원을 공급하도록 설계했다. 벤카타라마난은 "이 훈련 타일로 전체 데이터 센터 또는 건물 전체도 구축할 수 있지만 훈련 타일은 컴퓨팅 부분이기 때문에 컴퓨팅 결과를 처리하는 호스트 CPU로 전달해야 한다"라고 말했다.출처 : AI타임스(https://www.aitimes.com) 테슬라의 도조 인터페이스 프로세서(DIP).(사진=테슬라)출처 : AI타임스(https://www.aitimes.com)