deck

云原生集群管理平台
- 多云资源调度
- 弹性伸缩
- 可观测性
训练基础设施
- 低精度训练
  - 在B卡上的性能问题
  - 如果在保证模型性能不降低的情况下，尽可能加速训练/推理
    - QAT
- RL中的训推一致性问题
  - same kernel sets?
  - better quant techniques?
  - algorithm codesign?

通算融合
- In a kernel
- Multi stream, 框架侧
基于shard IR的”jit”通信库, 面对未来越来越”sparse”的模型
- 例如 deepep
- m to n的问题
- 非BSP的通信模式