噜啊噜在线,色综久久,久久激情社区

3 【已解决】 cuda目前就业情况怎样？

本人目前读大二，学校成立了超算团队，加入之后正在学习CUDA编程，想了解一下本科生毕业后从事CUDA就业严不严峻，主要从事哪些方面的工作，以及未来的发展空间怎么样？另外这个读研是不是必须的？

0 条评论
分类：教育学习

最佳答案 2024-09-30 00:00

我认为只有以下方向适合入坑，如有错误，不欢迎指正；切勿轻信，概不负责 :)

1、聚合通信和多GPU编程

为了降低tail latency，一般用单机多卡推理，涉及到通信，但Triton对多卡的支持远没有单卡完善。举个例子，CUDA目前不支持单机多卡同步（比如`__syncgpus()`）。已知多卡支持P2P，如何手撸算子实现多卡间barrier sync？对PTX内存一致性模型（memory consistency model）理解深不深刻直接影响同步的性能，不同实现性能差距高达200%。此外，用GPUDirect RDMA一把梭哈可以实现很多意想不到的性能提升…Triton和cuTLASS发展迅猛，单机SIMT已经没啥搞头了…

2、DSA编程技术探索

老黄卖卡不断塞DSA打鸡血，本是违背GPGPU祖训的玩意，严重破坏SIMT编程模型。新卡到手如何使用这些DSA成了大问题…Hopper 2年前出的，白皮书更早了，大家早就知道有async barrier、async mem copy和TMA这些，但为啥直到今年五月TK、七八月FA3才有（相对）不错的应用呢（暂不考虑CUDA有bug）？cluster内distributed shmem对什么负载用？L2$ residency control该对什么负载设，怎么设？我不信没人探索过这些…

3、DSL和编译

没必要一直盯着Triton这个Python DSL。自己造个小DSL不好吗？上文说到DSA破坏SIMT编程模型，FA3写得那个丑啊…TK不香吗？能不能设计1种编程模型隐藏DSA复杂的使用方法，比如封装TMA和async mem copy？能不能设计1种编程模型隐藏通信和计算叠加，比如显式地把矩阵乘和allreduce融合？塞DSA欠的technical debt太多了，缝缝补补设计新编程模型，极大简化开发效率，多香！

老黄隔年卖新卡解决了不少就业问题：新硬件，新参数，又来活儿辣！但这是人力密集型劳动，不是智力密集型劳动，需求很快就填满了。数据并行只是负载的某个狭隘的特征；并不能因为这类负载占用大量算力，就说它是最重要的负载。

CUDA并行编程对体系结构知识的要求很浅（做GPU微架构或调度器另说），加上开源资料少，没啥能学的。自学？捧着块GTX消费级显卡按照教程撸几个算子测性能提升没有意义，绿厂那么大团队当真吃干饭的，矩阵乘还用你写？

0 条评论

匿名用户

采纳率 100% | 回答于 2024-09-27 16:10

亚洲天堂成人在线视频_伊人网狠狠干_亚洲精品综合在线观看_国产在线第一页_91最新在线观看_国产亚洲久

3 【已解决】 cuda目前就业情况怎样？

最佳答案 2024-09-30 00:00

其它 0 个回答

扫码关注微信公众号

相似问题