Всего лишь год назад мы писали о выпуске инструментария CUDA Toolkit 3.0 для разработки приложений, использующих огромные вычислительные мощности фирменных графических ускорителей Nvidia. C тех пор пакет Cuda Toolkit 4.0 обзавелся автоматическим анализом производительности в визуальном профайлере. Также инструментарий Cuda Toolkit 4.0 теперь поддерживает платформу Mac OS X и язык программирования C++ с виртуальными функциями – ранее инструментарий CUDA ориентировался по большей части на классический язык программирования C. Кроме того, разработчикам теперь доступен дизассемблер бинарного кода.
   Сами представители Nvidia указывают на три главных преимущества Cuda Toolkit 4.0 – прямая связь между ядрами графических процессоров в рамках одного сервера или рабочей станции, унифицированная виртуальная адресация для основной памяти и памяти графического процессора, а также открытые параллельные алгоритмы на языке C++. По некоторым данным, предоставляемые алгоритмы обеспечивают серьезный выигрыш в скорости исполнения стандартных параллельных процедур. Например, параллельная сортировка выполняется в 5-100 раз быстрее, чем при использовании библиотек Standard Template Library или Threading Building Blocks.
   Вдобавок к библиотеке стандартных параллельных функций на языке C++ пакет Cuda Toolkit 4.0 предлагает поддержку технологии OpenMPI, которая позволяет автоматически переносить данные в память графического процессора и обратно по шине Infiniband, когда приложение выполняет MPI-запрос на получение или отправку данных. Также поддерживается одновременная работы с несколькими потоками исполнения на одном основном процессоре с общими контекстами, а один поток исполнения на центральном процессоре может использовать ресурсы сразу всех графических процессоров в системе.
   Поставки Cuda Toolkit 4.0 в версии релиз-кандидат начнутся 4 марта 2011 года для зарегистрированных участников программы по разработке CUDA-ориентированных приложений. Сроки выпуска официальной версии пока не определены.