2016-02-05から1日間の記事一覧

2016-02-05

【CUDA】Shared memoryの動的な確保

CUDA C++

Shared memoryは，オンチップでキャッシュされないグローバルメモリにアクセスするより100倍速い． Shared memoryはブロックごとに配置されているおり，同じブロックのスレッドは，Shared memoryにアクセスできる．そのため，競合を防ぐために__syncthreads…

2016-02-05

【CUDA】Dynamic parallelismによるQuicksort

CUDA

http://blogs.nvidia.com/blog/2012/09/12/how-tesla-k20-speeds-up-quicksort-a-familiar-comp-sci-code/CC3.5以上で使えるDynamic parallelismは，デバイス内で再帰的にカーネルを呼び出すことできるので， Quicksortなどが簡易に実装できる．【CUDA】Dyn…