亚洲天堂成人在线视频_伊人网狠狠干_亚洲精品综合在线观看_国产在线第一页_91最新在线观看_国产亚洲久

3 【已解决】 cuda目前就业情况怎样?

本人目前读大二,学校成立了超算团队,加入之后正在学习CUDA编程,想了解一下本科生毕业后从事CUDA就业严不严峻,主要从事哪些方面的工作,以及未来的发展空间怎么样?另外这个读研是不是必须的?

请先 登录 后评论

最佳答案 2024-09-30 00:00

我认为只有以下方向适合入坑,如有错误,不欢迎指正;切勿轻信,概不负责 :)

1、聚合通信和多GPU编程

为了降低tail latency,一般用单机多卡推理,涉及到通信,但Triton对多卡的支持远没有单卡完善。举个例子,CUDA目前不支持单机多卡同步(比如`__syncgpus()`)。已知多卡支持P2P,如何手撸算子实现多卡间barrier sync?对PTX内存一致性模型(memory consistency model)理解深不深刻直接影响同步的性能,不同实现性能差距高达200%。此外,用GPUDirect RDMA一把梭哈可以实现很多意想不到的性能提升…Triton和cuTLASS发展迅猛,单机SIMT已经没啥搞头了…

2、DSA编程技术探索

老黄卖卡不断塞DSA打鸡血,本是违背GPGPU祖训的玩意,严重破坏SIMT编程模型。新卡到手如何使用这些DSA成了大问题…Hopper 2年前出的,白皮书更早了,大家早就知道有async barrier、async mem copy和TMA这些,但为啥直到今年五月TK、七八月FA3才有(相对)不错的应用呢(暂不考虑CUDA有bug)?cluster内distributed shmem对什么负载用?L2$ residency control该对什么负载设,怎么设?我不信没人探索过这些…

3、DSL和编译

没必要一直盯着Triton这个Python DSL。自己造个小DSL不好吗?上文说到DSA破坏SIMT编程模型,FA3写得那个丑啊…TK不香吗?能不能设计1种编程模型隐藏DSA复杂的使用方法,比如封装TMA和async mem copy?能不能设计1种编程模型隐藏通信和计算叠加,比如显式地把矩阵乘和allreduce融合?塞DSA欠的technical debt太多了,缝缝补补设计新编程模型,极大简化开发效率,多香!

老黄隔年卖新卡解决了不少就业问题:新硬件,新参数,又来活儿辣!但这是人力密集型劳动,不是智力密集型劳动,需求很快就填满了。数据并行只是负载的某个狭隘的特征;并不能因为这类负载占用大量算力,就说它是最重要的负载。

CUDA并行编程对体系结构知识的要求很浅(做GPU微架构或调度器另说),加上开源资料少,没啥能学的。自学?捧着块GTX消费级显卡按照教程撸几个算子测性能提升没有意义,绿厂那么大团队当真吃干饭的,矩阵乘还用你写?
请先 登录 后评论

其它 0 个回答

  • 1 关注
  • 0 收藏,152 浏览
  • 匿名 提出于 2024-09-27 16:09

扫码关注微信公众号

QAQ9问答官方公众号
主站蜘蛛池模板: 成人国产精品高清在线观看 | 国精产品69永久中国有限 | 日欧137片内射在线视频播放 | 激情视频免费 | 欧美精品在线观看 | 成人羞羞视频国产 | 精品熟女少妇av免费观看 | 久久久久国产精品人妻aⅴ网站 | 日韩精品区一区二区三vr | 欧美色图自拍 | 伴郎粗大的内捧猛烈进出视频观看 | 国产成人不卡亚洲精品91 | 亚洲欧美日韩中文综合v日本 | 日韩久久精品一区二区三区 | 看全色黄大色黄大片 视频 看全色黄大色黄大片毛片 看全色黄大色黄大片色黄看的 | 国内一级特黄女人精品片 | 久久精品午夜 | 日本一区二区免费不卡 | 国产精品jizz视频 | 精品国产理论在线观看不卡 | 在线免费国产视频 | 中文在线最新版天堂 | 69国产成人综合久久精品 | adc影院在线观看成人 | 久久国产一久久高清 | www.免费在线观看 | 四虎在线播放免费永久视频 | 午夜剧院官方 | 欧美日韩大片在线观看 | 普通话精彩对白一区 | 成年美女黄网站色大片免费软件看 | 无码一区二区三区中文字幕 | 精品九九九 | 日本一级做人免费视频 | 国产成人综合网 | 一级片aaaaaa| 毛片免费视频观看 | 福利精品一区 | 成人亚洲网站www在线观看 | 国产高清一区 | 久久久免费视频播放 |