云原生集群管理平台
多云资源调度
弹性伸缩
可观测性
训练基础设施
低精度训练
在B卡上的性能问题
如果在保证模型性能不降低的情况下,尽可能加速训练/推理
QAT
RL中的训推一致性问题
same kernel sets?
better quant techniques?
algorithm codesign?
通算融合
In a kernel
Multi stream, 框架侧
基于shard IR的”jit”通信库, 面对未来越来越”sparse”的模型
例如 deepep
m to n的问题
非BSP的通信模式