亚洲天堂成人在线视频_伊人网狠狠干_亚洲精品综合在线观看_国产在线第一页_91最新在线观看_国产亚洲久

3 【已解决】 cuda目前就业情况怎样?

本人目前读大二,学校成立了超算团队,加入之后正在学习CUDA编程,想了解一下本科生毕业后从事CUDA就业严不严峻,主要从事哪些方面的工作,以及未来的发展空间怎么样?另外这个读研是不是必须的?

请先 登录 后评论

最佳答案 2024-09-30 00:00

我认为只有以下方向适合入坑,如有错误,不欢迎指正;切勿轻信,概不负责 :)

1、聚合通信和多GPU编程

为了降低tail latency,一般用单机多卡推理,涉及到通信,但Triton对多卡的支持远没有单卡完善。举个例子,CUDA目前不支持单机多卡同步(比如`__syncgpus()`)。已知多卡支持P2P,如何手撸算子实现多卡间barrier sync?对PTX内存一致性模型(memory consistency model)理解深不深刻直接影响同步的性能,不同实现性能差距高达200%。此外,用GPUDirect RDMA一把梭哈可以实现很多意想不到的性能提升…Triton和cuTLASS发展迅猛,单机SIMT已经没啥搞头了…

2、DSA编程技术探索

老黄卖卡不断塞DSA打鸡血,本是违背GPGPU祖训的玩意,严重破坏SIMT编程模型。新卡到手如何使用这些DSA成了大问题…Hopper 2年前出的,白皮书更早了,大家早就知道有async barrier、async mem copy和TMA这些,但为啥直到今年五月TK、七八月FA3才有(相对)不错的应用呢(暂不考虑CUDA有bug)?cluster内distributed shmem对什么负载用?L2$ residency control该对什么负载设,怎么设?我不信没人探索过这些…

3、DSL和编译

没必要一直盯着Triton这个Python DSL。自己造个小DSL不好吗?上文说到DSA破坏SIMT编程模型,FA3写得那个丑啊…TK不香吗?能不能设计1种编程模型隐藏DSA复杂的使用方法,比如封装TMA和async mem copy?能不能设计1种编程模型隐藏通信和计算叠加,比如显式地把矩阵乘和allreduce融合?塞DSA欠的technical debt太多了,缝缝补补设计新编程模型,极大简化开发效率,多香!

老黄隔年卖新卡解决了不少就业问题:新硬件,新参数,又来活儿辣!但这是人力密集型劳动,不是智力密集型劳动,需求很快就填满了。数据并行只是负载的某个狭隘的特征;并不能因为这类负载占用大量算力,就说它是最重要的负载。

CUDA并行编程对体系结构知识的要求很浅(做GPU微架构或调度器另说),加上开源资料少,没啥能学的。自学?捧着块GTX消费级显卡按照教程撸几个算子测性能提升没有意义,绿厂那么大团队当真吃干饭的,矩阵乘还用你写?
请先 登录 后评论

其它 0 个回答

  • 1 关注
  • 0 收藏,177 浏览
  • 匿名 提出于 2024-09-27 16:09

扫码关注微信公众号

QAQ9问答官方公众号
主站蜘蛛池模板: 狠狠操综合 | 精品国产福利片在线观看 | 国产69精品久久久久99 | 日日爽夜夜操 | 嫩草蜜桃 | 成人自拍偷拍视频 | 亚洲中文字幕精品久久久久久直播 | 一区在线视频 | 亚洲国产精品一区第二页 | 亚洲美女在线观看 | 国产亚洲精品91 | 国产成人免费片在线视频观看 | 91免费视频网站 | 国产激情久久久久影院老熟女 | 国产日韩欧美一区二区三区综合 | 看国产毛片 | 在线黄色大片 | 国产成人综合欧美精品久久 | 亚洲av无码av日韩av网站 | 久久99精品久久久久久首页 | 国产高清一区二区三区四区 | 人妻夜夜爽天天爽一区 | 亚洲欧美视频二区 | 日本阿v网站在线观看中文 日本啊v在线观看 | 国产欧美日韩精品a在线观看高清 | 欧美精品一区二区在线观看播放 | 久久综合一本 | 国产午夜精品无码 | 久久精品岛国av一区二区无码 | 中文字幕亚洲无线码 | 高潮毛片无遮挡高清免费 | 自拍偷拍3| 国产一区2区 | 国产精品久久久久久久久久98 | 黑人又大又粗又长又深受不了 | 爽爽免费视频 | 亚洲综合狠狠 | 亚洲香蕉伊综合在人在线 | 狠狠色噜噜狠狠狠狠97首创麻豆 | 在线亚洲自拍 | 国产疯狂伦交大片 |