- Open with Desktop
- View raw
- Copy raw contents Copy raw contents
CN1150304A - 信号二进制编码电路和数字信号处理装置 - Google Patents
Publication number CN1150304A CN1150304A CN96111733A CN96111733A CN1150304A CN 1150304 A CN1150304 A CN 1150304A CN 96111733 A CN96111733 A CN 選擇在正確的時間正確的二進制指標 96111733A CN 96111733 A CN96111733 A CN 96111733A CN 1150304 A CN1150304 A CN 1150304A Authority CN China Prior art keywords signal binary coding value component circuit Prior art date 1995-07-14 Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.) Pending Application number CN96111733A Other languages English ( en ) Inventor 吉村俊司 冈崎透 Current Assignee (The listed assignees may be inaccurate. Google 選擇在正確的時間正確的二進制指標 has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.) Sony Corp Original Assignee Sony Corp Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.) 1995-07-14 Filing date 1996-07-14 Publication date 1997-05-21 1995-07-14 Priority to JP201412/95 priority Critical 1995-07-14 Priority to JP20141295A priority patent/JP3299082B2/ja 1996-07-14 Application filed by Sony Corp filed Critical Sony Corp 1997-05-21 Publication of CN1150304A publication Critical patent/CN1150304A/zh Status Pending legal-status Critical Current
選擇在正確的時間正確的二進制指標
This commit does not belong to any branch on this repository, and may belong to a fork outside of the repository.
- Open with Desktop
- View raw
- Copy raw contents Copy raw contents
Copy raw contents
Copy raw contents
Classifier | Accuracy | Running time |
---|---|---|
A | 90% | 80ms |
B | 92% | 95ms |
C | 95% | 1,500ms |
$$ Accuracy - 0.5 * RunningTime $$
有一种替代方案可供选择:首先定义一个 “可接受的” 运行时间,一般低于 100ms 。接着,在限定的运行时间范围内,尽可能地将分类器的准确率最大化。此时,运行时间代表着 “满意度指标” —— 選擇在正確的時間正確的二進制指標 你的分类器必须在这个指标上表现得 “足够好” ,这里指的是运行时间约束上限为 100ms;而准确度则代表着 “优化指标”。
如果要考虑 $ N $ 项不同的标准,比如模型的二进制文件大小(这对移动端 app 尤为重要,因为用户不想下载体积很大的 app)、运行时间和准确率,你或许需要设置 $ N-1 $ 个 “满意度” 指标,即先要求它们满足一定的值或范围,下一步才是定义一个 “优化” 指标。例如分别为二进制文件的大小和运行时间设定可接受的阈值,并尝试根据这些限制来优化准确率指标。
最后再举一个例子,假设你正在设计一个硬件设备,该设备可以根据用户设置的特殊 “唤醒词” 来唤醒系统,类似于 Amazon Echo 的监听词为 “Alexa”,苹果(Apple) Siri 的监听词为 “Hey Siri”,安卓(Android) 的监听词为 “Okay Google”,以及百度(Baidu)应用的监听词 “Hello Baidu.” 我们关心的指标是假正例率(false positive rate,又译作假阳率,误诊率)—— 用户没有说出唤醒词,系统却被唤醒了,以及假反例率(false negative rate,又译作假阴率,漏诊率)——用户说出了唤醒词,系统却没能正确被唤醒。这个系统的一个较为合理的优化对象是尝试去最小化假反例率(优化指标),减少用户说出唤醒词而系统却没能正确唤醒的发生率,同时设置约束为每 24 小时不超过一次误报(满意度指标)。
机器学习工程实践之2.5 优化的和令人满意的指标
最后一个案例,假设正在构建一个硬件设备,该设备使用麦克风来监听用户说出特定的“唤醒词”,然后唤醒系统。比如:Amazon Echo收听“Alexa”;
Apple Siri收听“Hey Siri”; Android收听“Okay Google”;和百度apps收听“你好百度。”这里关心的是误报率(False Positive Rate)——即使没有人说出唤醒词系统被唤醒的频率——以及FNR(False Negative Rate)——当有人说出唤醒词无法唤醒系统的频率。该系统性能的一个合理目标是最小化FNR(优化的指标),并满足每运行24小时不会出现超过一个误报(令人满意的指标)。
選擇在正確的時間正確的二進制指標
我们不再更新 Amazon Machine Learning 服务或接受新用户。此文档可供现有用户使用,但我们不再更新它。有关更多信息,请参阅 。Amazon Machine Learning 是什么.
现在,预测根据实际已知答案和预测答案分类为四组:正确正向预测 (真阳性)、正确负向预测 (真阴性)、错误正向预测 (假阳性) 和错误负向预测 (假阴性)。
二进制分类准确性指标量化两种类型的正确预测和两种类型的错误预测。典型指标是准确性 (ACC)、精度、假阳性比率和 F1 度量。每个指标度量预测模型的不同方面。准确度 (ACC) 衡量正确预测的比率。精度衡量实际正向示例与预测为正向示例的比率。查全率衡量预测有多少实际正向示例预测为正向示例。F1 衡量精度和查全率的调和平均数。
AUC 是不同类型的指标。它衡量模型为正向示例预测出相比负向示例更高分数的能力。由于 AUC 選擇在正確的時間正確的二進制指標 独立于所选阈值,因此您可以从 AUC 指标感受到模型的预测性能,无需选取阈值。
根据您的业务问题,您可能会对在这些指标的特定部分中表现良好的模型更感兴趣。例如,两个业务应用程序可能对其 ML 模型具有迥然不同的需求:
一个应用程序可能需要严格保证正向预测实际是正向的 (高精度),并能够承受将一些正向示例错误分类为负向 (中等查全率)。
另一个应用程序可能需要尽可能多地预测正向示例 (高查全率),并可以接受将一些负向示例错误分类为正向 (中等精度)。
在亚马逊 ML 中,观察得到的预测分数在范围 [0,1] 中。用于做出将示例分类为 0 或 1 的决策的分数阈值默认情况下设置为 0.5。Amazon ML 允许您查看选择不同分数阈值的含义,并允许您选取符合业务需求的合适阈值。