算法榜单建设

AutoML 二分类榜单

automl 自动机器学习

背景：二分类场景下，尽量提高最终的预测效果。

测试方法：

该场景是一个批量的场景，之后还有个实时预测的场景。

数据表结构信息：主表、附表、标签表的结构，含有每个列的数据类型
（离散、连续特征、数值字符串特征等）

AutoML 榜单更新：

指标、数据集、资源的迭代
deployment → job 形式，因为重启后请求失败，又因为超时时间设置，导致无法 fail-fast，因此更改为 job 形式。除非需要增加一个后台任务不断去查看当前 pod 是否 restart 了。后续需要更改为定时任务机制，来方便之后的 deployment。
TCO 实时限制资源

评估方式 —— MAPE 指标，(预测-真实) / 真实。

背景：在 AUC 降低不多的情况下，将训练时间和评估时间降低。
AUC 选择当前 AutoML 二分类榜单的榜首结果。
排序指标：所有批次的训练时间和 + 评估时间和。
存在红线指标，要求评估得到的 AUC 不能比非 TCO 榜单的榜一效果差太多。

和 AutoML 二分类相似，除了数据和指标有所区别。

服务接口信息发送出故障。
Helm Chart 熟练。3 个服务，一个是 embedding 服务、一个是 chat 服务，一个是 backend 服务。因为为了方便管控，比赛平台后端会对启动的 K8S 服务增加一些配置信息，比如 annotation/labels 中配置提交 ID、任务 ID 等信息。如果是要挂载文件，还需要配置 volumeMounts。
熟悉了下 global 属性。

websocket
一个十分钟的音频，但是在实际测试的时候发送了 30 分钟或者更长时间（还没做）
假流式问题、时间戳错误等问题，针对这个问题采取的解决方案
- 限制每次可修改的内容范围 —— （忘了做了）
- 记录首字延迟、句尾延迟
- 句子对齐率
- 考虑过给每个字在标注的时候配置起始时间，但是标注成本太高了
最多两秒就结束，不接受多余内容

数据是 3D 零件文件，返回一系列相似的零件 ID。

应用场景：对于飞机等机械制造厂商，3D 零件造价较高，所以希望能尽可能复用已有的零件，减少制造的成本。

一个是 3D 零件相似性榜单，返回和当前零件结构相同 or 相似的零件 ID，用于零件搜索。被测服务提供相似+一致的零件列表，并根据相似程度降序排序。

一个是 3D 零件归一化榜单，返回和当前零件结构相同 or 相似的零件 ID，用于零件搜索。要求被测服务返回相似+一致的零件列表，或者部分相似 + 相似 + 一致的零件列表。

提供翻译文本、翻译前后的语种，返回翻译后的文本。比较方式是 NLTK 包的一个指标。

给定一个音频数据，返回一个识别后的文本。

RMSE 指标怎么计算的？准确率、正确率、召回率的计算？
AUC 指标怎么计算的？