热久久99这里有精品综合久久,蜜桃无码人妻一区二区三区99

我經(jīng)歷過在IBM大型機(jī)上編寫匯編語言來開發(fā)高性能程序的日子。用穿孔卡片編寫程序，編譯需要一天時(shí)間；你要留下在穿孔卡片上編寫的程序，第二天再來拿結(jié)果。如果出現(xiàn)錯(cuò)誤，你需要重復(fù)這些操作。在那些日子里，一位優(yōu)秀的程序員必須理解底層的機(jī)器硬件才能編寫出好的代碼。當(dāng)我看到現(xiàn)在的計(jì)算機(jī)科學(xué)專業(yè)的學(xué)生只學(xué)習(xí)抽象層次較高的內(nèi)容以及像Ruby這樣的語言時(shí)，我總會(huì)感到有些焦慮。盡管抽象是一件好事，因?yàn)樗梢员苊庥捎诓槐匾募?xì)節(jié)而使程序開發(fā)陷入困境，但當(dāng)你嘗試開發(fā)高性能代碼時(shí)，抽象就變成了一件壞事。
自第一個(gè)CPU出現(xiàn)以來，計(jì)算機(jī)架構(gòu)師在CPU硬件中添加了令人難以置信的功能來“容忍”糟糕的編程技巧。20年前，你必須手動(dòng)設(shè)置機(jī)器指令的執(zhí)行順序，而如今在硬件中CPU會(huì)為你做這些（例如，亂序執(zhí)行）。在GPU世界中也能清晰地看到類似的趨勢。由于GPU架構(gòu)師正在改進(jìn)硬件功能，5年前我們?cè)贕PU編程中學(xué)習(xí)的大多數(shù)性能提升技術(shù)（例如，線程發(fā)散、共享存儲(chǔ)體沖突以及減少原子操作的使用）正變得與改進(jìn)的GPU架構(gòu)越來越不相關(guān)，甚至5～10年后，即使是一名非常馬虎的程序員，這些因素也會(huì)變得無關(guān)緊要。當(dāng)然，這只是一個(gè)猜測。GPU架構(gòu)師可以做的事取決于晶體管總數(shù)及客戶需求。當(dāng)說晶體管總數(shù)時(shí)，是指GPU制造商可以將多少個(gè)晶體管封裝到集成電路（IC）即“芯片”中。當(dāng)說客戶需求時(shí)，是指即使GPU架構(gòu)師能夠?qū)崿F(xiàn)某個(gè)功能，但如果客戶使用的應(yīng)用程序不能從中受益，就意味著浪費(fèi)了部分的晶體管數(shù)量。
從編寫教科書的角度出發(fā)，我考慮了所有的因素，逐漸明確講授GPU編程的最佳方式是說明不同系列GPU（如Fermi、Kepler、Maxwell和Pascal）之間的不同并指明發(fā)展趨勢，這可以讓讀者準(zhǔn)備好迎接即將到來的下一代GPU，再下一代，……我會(huì)重點(diǎn)強(qiáng)調(diào)那些相對(duì)來說會(huì)長期存在的概念，同時(shí)也關(guān)注那些與平臺(tái)相關(guān)的概念。也就是說，GPU編程完全關(guān)乎性能，如果你了解程序運(yùn)行的平臺(tái)架構(gòu)，編寫出了與平臺(tái)相關(guān)的代碼，就可以獲得更高的性能。所以，提供平臺(tái)相關(guān)的解釋與通用的GPU概念一樣有價(jià)值。本書內(nèi)容的設(shè)計(jì)方式是，越靠后的章節(jié)，內(nèi)容越具有平臺(tái)特定性。
我認(rèn)為本書最獨(dú)特的地方就是通過第一部分中的CPU多線程來解釋并行。第二部分介紹了GPU的大規(guī)模并行（與CPU的并行不同）。由于第一部分解釋了CPU并行的方式，因此讀者在第二部分中可以較為容易地理解GPU的并行。在過去的6年中，我設(shè)計(jì)了這種方法來講授GPU編程，認(rèn)識(shí)到從未學(xué)過并行編程課程的學(xué)生并不是很清楚大規(guī)模并行的概念。與GPU相比，“并行化任務(wù)”的概念在CPU架構(gòu)中更容易理解。
本書的組織如下。第一部分（第1章至第5章）使用一些簡單的程序來演示如何將大任務(wù)分成多個(gè)并行的子任務(wù)并將它們映射到CPU線程，分析了同一任務(wù)的多種并行實(shí)現(xiàn)方式，并根據(jù)計(jì)算核心和存儲(chǔ)單元操作來研究這些方法的優(yōu)缺點(diǎn)。本書的第二部分（第6章至第11章）將同一個(gè)程序在多個(gè)Nvidia GPU平臺(tái)（Fermi、Kepler、Maxwell和Pascal）上并行化，并進(jìn)行性能分析。由于CPU和GPU的核心和內(nèi)存結(jié)構(gòu)不同，分析結(jié)果的差異有時(shí)很有趣，有時(shí)與直覺相反。本書指出了這些結(jié)果的不同之處，并討論了如何讓GPU代碼運(yùn)行得更快。本書的最終目標(biāo)是讓程序員了解所有的做法，這樣他們就可以應(yīng)用好的做法，并避免將不好的做法應(yīng)用到項(xiàng)目中。
盡管第一部分和第二部分已經(jīng)完全涵蓋了編寫一個(gè)好的CUDA程序需要的所有內(nèi)容，但總會(huì)有更多需要了解的東西。本書的第三部分為希望拓寬視野的讀者指明了方向。第三部分并不是相關(guān)主題的詳細(xì)參考文檔，只是給出了一些入門介紹，讀者可以從中獲得學(xué)習(xí)這些內(nèi)容的動(dòng)力。這部分主要介紹了一些流行的CUDA庫，比如cuBLAS、cuFFT、Nvidia Performance Primitives和Thrust（第12章）；OpenCL編程語言（第13章）；使用其他編程語言和API庫進(jìn)行GPU編程，包括Python、Metal、Swift、OpenGL、OpenGL ES、OpenCV和微軟HLSL（第14章）；深度學(xué)習(xí)庫cuDNN（第15章）。
書中代碼的下載地址為：https://www.crcpress.com/GPU-Parallel-ProgramDevelopment-Using- CUDA /Soyata/p/book/9781498750752。

Tolga Soyata

Tolga Soyata于1988年在伊斯坦布爾技術(shù)大學(xué)電子與通信工程系獲得學(xué)士學(xué)位，1992年在美國馬里蘭州巴爾的摩的約翰·霍普金斯大學(xué)電氣與計(jì)算機(jī)工程系（ECE）獲得碩士學(xué)位，2000年在羅切斯特大學(xué)電氣與計(jì)算機(jī)工程系獲得博士學(xué)位。2000年至2015年間，他成立了一家IT外包和復(fù)印機(jī)銷售/服務(wù)公司。在運(yùn)營公司的同時(shí)，他重返學(xué)術(shù)界，在羅切斯特大學(xué)電氣與計(jì)算機(jī)工程系擔(dān)任研究員。之后，他成為助理教授，并一直擔(dān)任電氣與計(jì)算機(jī)工程系教職研究人員至2016年。在羅切斯特大學(xué)電氣與計(jì)算機(jī)工程系任職期間，他指導(dǎo)了三名博士研究生。其中兩人在他的指導(dǎo)下獲得博士學(xué)位，另一位在他2016年加入紐約州立大學(xué)奧爾巴尼分校擔(dān)任電氣與計(jì)算機(jī)工程系副教授時(shí)留在了羅切斯特大學(xué)。Soyata的教學(xué)課程包括大規(guī)模集成電路、模擬電路以及使用FPGA和GPU進(jìn)行并行編程。他的研究興趣包括信息物理系統(tǒng)、數(shù)字健康和高性能醫(yī)療移動(dòng)云計(jì)算系統(tǒng)等。
Tolga Soyata從2009年開始從事GPU編程的教學(xué)，當(dāng)時(shí)他聯(lián)系Nvidia將羅切斯特大學(xué)認(rèn)證為CUDA教學(xué)中心（CTC）。在Nvidia將羅切斯特大學(xué)認(rèn)證為教學(xué)中心后，他成為主要負(fù)責(zé)人。之后，Nvidia還將羅切斯特大學(xué)認(rèn)證為CUDA研究中心（CRC），他也成為項(xiàng)目負(fù)責(zé)人。Tolga Soyata在羅切斯特大學(xué)擔(dān)任這些計(jì)劃的負(fù)責(zé)人直到他于2016年加入紐約州立大學(xué)奧爾巴尼分校。這些計(jì)劃后來被Nvidia命名為GPU教育中心和GPU研究中心。在羅切斯特大學(xué)期間，他講授了5年GPU編程和高級(jí)GPU項(xiàng)目開發(fā)課程，這些課程同時(shí)被列入電氣與計(jì)算機(jī)工程系以及計(jì)算機(jī)科學(xué)與技術(shù)系的課程體系。自2016年加入紐約州立大學(xué)奧爾巴尼分校以來，他一直在講授類似的課程。本書是他在兩所大學(xué)講授GPU課程的經(jīng)驗(yàn)結(jié)晶。

你還可能感興趣

我要評(píng)論