'Ai' 태그의 글 목록

https://arxiv.org/abs/2507.04786 NCCL은 굉장히 널리 쓰이는 집합 통신 라이브러리다. MPI와는 다르게 GPU-GPU 통신만을 위해 개발되었고, NVLink, PICe, InfiniBand를 활용해서 고대역폭, 저지연을 목표로 하고 있다. NCCL은 공개된 정보가 거의 없어서 공식 Github 질문 정도로만 다들 해결하고 있다 이 논문 reference 조차도 몇 개가…. 공식 API 문서로는 내부 구현, 예를 들어서 토폴로지 생성, 알고리즘 선택, 파이프라이닝, 버퍼 관리 같은 것을 제대로 알 수 없다. 이 논문에서는 1. 기본적인 API 구조, 통신 채널 관리2. 통신 프로토콜 (Simple, LL, LL128) 세부 정보3. Data-transfer model 분석4. ..

https://doi.org/10.1007/978-3-030-50743-5_3멜라녹스(지금은 엔비디아에 인수된)에서 개발한 in-network computing 기술, SHARP에 대해 다룬 논문. https://network.nvidia.com/pdf/solutions/hpc/paperieee_copyright.pdf2016년 SHArP 논문의 후속 논문이다. https://developer.nvidia.com/ko-kr/blog/3%EC%84%B8%EB%8C%80-nvidia-nvswitch%EB%A5%BC-%ED%86%B5%ED%95%9C-%EB%A9%80%ED%8B%B0-gpu-%EC%9D%B8%ED%84%B0%EC%BB%A4%EB%84%A5%ED%8A%B8-%EC%97%85%EA%B7%B8%EB..

https://arxiv.org/abs/2304.01433 2020년에 구글 내부에서 출시된 TPU v4에 대한 논문이다. 계속 커져가는 LLM 모델 크기를 감당하기 위해 TPU v2가 256 node였던 것에 비해 TPU v4는 4096 node까지 확장할 수 있도록 설계되었다. TPU는 사실상 GPU에 대항할 수 있는 거의 유일한 DSA라고 생각하고 있고, 게다가 이런 논문은 대규모 슈퍼컴퓨터를 실제로 운용해봐야 쓸 수 있는 주제라서 대기업 말고 쓸 수 있는 곳도 드물다. AI 하드웨어를 연구하고 싶다면 꼭 한번씩 읽어보면 좋겠다. 이 논문에서 소개하는 건 크게 TPU v4에서 새로 도입된Optical Circuit Switches (OCSes)임베딩 지원을 위한 SparseCore 아키텍처All-t..

https://arxiv.org/abs/2505.09343 올해 가장 재밌게 읽은 논문 중 하나다. 보통 Technical Report 논문들 보면 모델 아키텍처랑 성능 쪽에 초점을 맞춘 경우가 많은데 이렇게 하드웨어, 통신을 집중적으로 파고든 논문은 찾기 어려웠다. DeepSeek는 뉴스에도 여러 번 나왔다시피 수출 규제 때문에 성능에 제한이 있는 H800 2048대만으로 학습을 진행했다. 이 정도 스케일도 한국에선 따라하기 어렵지만 덕분에(?) FP8 학습, 새로운 토폴로지 (Multi Plane Fat Tree), Model-Hardware Co-design, 더 많은 expert가 있는 MoE, DeepEP, DualPipe 같은 새로운 통신 라이브러리, Node-Limited Routing 같..

티스토리툴바