AutoML 二分类榜单
automl 自动机器学习
背景:二分类场景下,尽量提高最终的预测效果。
测试方法:
- 初始化阶段,告知二分类场景、数据表结构信息
- 添加训练数据阶段,提供训练数据
- 异步轮询训练结束阶段,轮询获得训练结束
- 添加预测数据阶段,提供预测数据
- 异步轮询预测结束阶段,轮询获得训练结束,获得预测结果。
该场景是一个批量的场景,之后还有个实时预测的场景。
数据表结构信息:主表、附表、标签表的结构,含有每个列的数据类型
(离散、连续特征、数值字符串特征等)
AutoML 榜单更新:
- 指标、数据集、资源的迭代
- deployment → job 形式,因为重启后请求失败,又因为超时时间设置,导致无法 fail-fast,因此更改为 job 形式。除非需要增加一个后台任务不断去查看当前 pod 是否 restart 了。后续需要更改为定时任务机制,来方便之后的 deployment。
- TCO 实时限制资源
AutoML 回归榜单
评估方式 —— MAPE 指标,(预测-真实) / 真实。
AutoML 二分类 TCO 榜单
背景:在 AUC 降低不多的情况下,将训练时间和评估时间降低。
AUC 选择当前 AutoML 二分类榜单的榜首结果。
排序指标:所有批次的训练时间和 + 评估时间和。
存在红线指标,要求评估得到的 AUC 不能比非 TCO 榜单的榜一效果差太多。
AutoCV 分类、检测、实例分割榜单
和 AutoML 二分类相似,除了数据和指标有所区别。
Copilot 意图识别榜单
- 服务接口信息发送出故障。
- Helm Chart 熟练。3 个服务,一个是 embedding 服务、一个是 chat 服务,一个是 backend 服务。因为为了方便管控,比赛平台后端会对启动的 K8S 服务增加一些配置信息,比如 annotation/labels 中配置提交 ID、任务 ID 等信息。如果是要挂载文件,还需要配置 volumeMounts。
- 熟悉了下 global 属性。
ASR 榜单
- websocket
- 一个十分钟的音频,但是在实际测试的时候发送了 30 分钟或者更长时间(还没做)
- 假流式问题、时间戳错误等问题,针对这个问题采取的解决方案
- 限制每次可修改的内容范围 —— (忘了做了)
- 记录首字延迟、句尾延迟
- 句子对齐率
- 考虑过给每个字在标注的时候配置起始时间,但是标注成本太高了
- 最多两秒就结束,不接受多余内容
3D 零件榜单
数据是 3D 零件文件,返回一系列相似的零件 ID。
应用场景:对于飞机等机械制造厂商,3D 零件造价较高,所以希望能尽可能复用已有的零件,减少制造的成本。
一个是 3D 零件相似性榜单,返回和当前零件结构相同 or 相似的零件 ID,用于零件搜索。被测服务提供相似+一致的零件列表,并根据相似程度降序排序。
一个是 3D 零件归一化榜单,返回和当前零件结构相同 or 相似的零件 ID,用于零件搜索。要求被测服务返回相似+一致的零件列表,或者部分相似 + 相似 + 一致的零件列表。
翻译榜单
提供翻译文本、翻译前后的语种,返回翻译后的文本。比较方式是 NLTK 包的一个指标。
TTS 榜单
给定一个音频数据,返回一个识别后的文本。
指标逻辑
RMSE 指标怎么计算的?准确率、正确率、召回率的计算?
AUC 指标怎么计算的?