• 云原生集群管理平台
    • 多云资源调度
    • 弹性伸缩
    • 可观测性
  • 训练基础设施
    • 低精度训练
      • 在B卡上的性能问题
      • 如果在保证模型性能不降低的情况下,尽可能加速训练/推理
        • QAT
    • RL中的训推一致性问题
      • same kernel sets?
      • better quant techniques?
      • algorithm codesign?
  • 通算融合
    • In a kernel
    • Multi stream, 框架侧
  • 基于shard IR的”jit”通信库, 面对未来越来越”sparse”的模型
    • 例如 deepep
    • m to n的问题
    • 非BSP的通信模式