紧急的任务

  • AutoCV 分类
    • 医疗数据集替换(批量成功)
    • 医疗数据集替换(成功)
    • 医疗数据集,训练数据挪动一部分到预测数据上
  • AutoCV 分割
    • 榜单开发
    • 数据集生成 —— 待从 Kaggle 中寻找
    • 待上榜测试
  • ASR
    • 榜单合并
    • 数据集处理
    • ASR - websocket 发送时间过长
  • 算子 TCO
    • 景驰援收集聚类的训练+预测数据集
    • 景驰援测试新数据集下,榜单的可用性情况
    • 训练榜单升级、测历史策略的产品可用性
    • baseline 重跑
  • 深度学习算子训练 TCO
    • 应用场景是什么样的?AIOS 4.x 和 AIOS 5.0 下的应用情况,当前 AIOS 不是已经 5.0 版本了。
    • 训练时我要求它去训练时,它去训练,还是说,我不断的给他发待预测数据 + 回传的数据,它自行决定合适训练?
    • 训练的目的是什么?
      • 效果基本一致 or 效果更好?
      • 预测时间越快越好 or 预测时间满足红线就可以?
    • 其他:
      • 模型自定义 or 模型固定?
      • 容器形式 or 接口形式?如果是接口形式,是否要考虑 cuda 版本、机器版本问题?
  • TTS 中文榜单
    • 指标修改
  • AutoML 二分类
    • 糖尿病数据集 —— 待榜上测试
    • Fila 数据集 —— 待榜上测试
    • 墨迹天气数据集
  • AutoML 二分类场内
    • 榜单开发
    • 生成伪造数据集
    • 待上榜测试

暂时没有申请的 credit:

  • TCO 预测榜单,将榜单上所有的 pip 包下载下来 (from 冕哥)

  • TCO 预测榜单,增加预热功能 (from 冕哥)

  • TCO 预测榜单,去除 batch 功能(from 冕哥)

  • TCO 训练榜单,测试历史所有策略,判断是否新检查下产品不可用 (from 冕哥)

  • TCO 预测榜单,增加墨迹天气+FILA 数据集 (from 冕哥+鹏哥)

  • AutoML 二分类榜单,增加墨迹天气+FILA 数据集 (from 老板)

  • AutoML 二分类私榜,按照世泽要求的指标等内容,创建二分类反欺诈私榜(from 老板)

  • AutoCV 分类榜单,找+更换医疗数据集(from 老板)

  • TCO 训练榜单

    1. 将剩下榜单的策略重新跑 —— 获得产品不可用的策略 + 榜单 credit true 发放历史积分
    2. 聚类数据集收集 + 生成数据集
    3. (推迟) 训练榜单新逻辑和 TCO 打榜人员沟通,判断是否还有需要的更改地方
  • TCO 预测榜单

    1. 去除 batch 操作
    2. 新增两个数据集
    3. (推迟) 预测榜单,考虑使用原始所有数据进行预测,增大预测数据量
    4. (推迟) 对接 AIOS 日志系统?
    5. 沟通 —— 更新思路
      • 去除 batch 操作、二分类新增两个数据集
      • 为了更好的批量预测 —— 使用全量的数据集进行预测(不再使用切分后的测试集预测)(数据集格式更新 TODO)
      • 预热使用的数据集是否也使用 predict 时的数据集,还是一千条就够了?
  • AutoCV 分割榜单

    1. 确定接口信息(label 采用 mask 形式)
    2. 和标注平台确认导出格式
  • AutoML 糖尿病数据集

    1. AutoML 回归数据集
    2. (下下周) AutoML 回归,获得二分类数据集上的 Glu120、Glu0、va1c 指标
    3. (下下周) 二分类数据集构造
  • ASR 榜单

    1. (确认一下上线时间) 11 个榜单合并操作 + 要一下提案文档
    2. (推迟) 中英文榜单接口改造
    3. (推迟) 俄式榜单时延

发现 K8S 中有很多只存在 SUT POD,但是没有 JudgeFlow Pod 的任务。
原因:由于 SUBMIT-ERROR 导致,平台认为 POD 没有启动,进而导致没有清理。