2016-02-05から1日間の記事一覧

【CUDA】Shared memoryの動的な確保

Shared memoryは,オンチップでキャッシュされないグローバルメモリにアクセスするより100倍速い. Shared memoryはブロックごとに配置されているおり,同じブロックのスレッドは,Shared memoryにアクセスできる. そのため,競合を防ぐために__syncthreads…

【CUDA】Dynamic parallelismによるQuicksort

http://blogs.nvidia.com/blog/2012/09/12/how-tesla-k20-speeds-up-quicksort-a-familiar-comp-sci-code/CC3.5以上で使えるDynamic parallelismは,デバイス内で再帰的にカーネルを呼び出すことできるので, Quicksortなどが簡易に実装できる. 【CUDA】Dyn…