Un développeur a conçu dvlt.cu, un moteur d’inférence pour le modèle 3D Transformer de NVIDIA, entièrement codé en CUDA/C++. Ce projet, né d’un intérêt pour le calcul haute performance et la reconstruction 3D, se distingue par sa légèreté et son indépendance vis-à-vis des bibliothèques courantes.
Le programme se présente sous la forme d’un unique exécutable de 5 Mo, sans dépendances majeures comme Python, PyTorch, TensorFlow, ONNX, ou les runtimes de Hugging Face. Il s’appuie uniquement sur cuBLASLt et cuTLASS, des composants optimisés pour les GPU NVIDIA.
Les poids du modèle (117 millions de paramètres), fournis par NVIDIA et destinés à un usage non commercial, sont chargés directement en mémoire GPU. Cette approche vise une efficacité maximale pour l’exécution du modèle.
Source : Reddit r/LocalLLaMA