休哈特控制图
专业分析师 +人工智能
适用于 Windows、Mac、Linux

俄罗斯软件登记册(条目号 18857,日期为 09/05/2023)

购买软件

机器学习(ML)。使用算法训练数学模型 决策树 回归和分类方法

按钮 [使用决策树方法训练和应用数学模型(回归和分类)。]

决策树被归类为监督式机器学习 (ML) 算法,用于预测连续(回归)和分类(分类)输出变量。我们软件的这一功能使广泛的用户能够使用机器学习技术。

您可以下载结构化电子表格文件的示例,用于创建数学模型并预测回归分析的决策树算法: XLSX 和分类 XLSX

表文件中的结构化数据可用于导入:Excel 工作簿 (*.xlsx); Excel 二进制工作簿 (*.xlsb); OpenDocument 电子表格 (*.ods)。

它用在哪里?

使用决策树方法进行数据分析可以使用:

  • 作为有效的(成本、时间、资源)替代方案” 规划实验 “寻找输入参数的最佳模式;
  • 当通过昂贵和/或耗时的测试来执行输出参数的测量程序时,用于对输出参数进行初步或替代评估;
  • 对于专家决策支持系统(DSS),当决策与人为错误的风险相关时。
数据模型文件

我们的软件可以使用 scikit-learn 库的经过训练的决策树数学模型,该模型在其他计算机上创建并保存在文件 (*.sav) 中。

输入和输出连续量(测量值)的回归方法决策树

我们的一位客户的使用示例:
您管理设计开发和装配生产,并从大型金属加工中心订购零件。计算金属中心成本的请求数量大大超过了其实际订单数量。金属中心的经理已经很不情愿并且迟迟不回应你的要求。您向金属中心提供计算算法,以便您可以快速计算金属中心的工作成本,而不会分散其员工的工作注意力,但很自然地,您会收到拒绝。

您的订单历史记录以及零件的​​数量、技术特征(这是计算金属中心服务成本的基础)以及提供的成本是创建回归模型并使用它独立获得非常接近的金属中心的良好基础价格,无需发送计算请求。机器学习功能 软件回归的决策树 Shewhart 控制图 +AI 将在构建数学模型时演示对数学模型准确性的评估。使用构建的数学模型“当前与预测值”对金属中心价格预测误差进行图形分析,将向您展示对“危险”和“安全”方向上可能风险的评估,您可以将其考虑在内帐户在您的定价中。为了更新您的数学模型,您将能够用实际在金属中心执行的订单来补充它。

用于跳转到机器学习 (ML) 功能的窗口

图 1. 用于访问机器学习 (ML) 功能的窗口。当您将鼠标悬停在主菜单项上时,会显示下拉菜单列表。

用于跳转到机器学习 (ML) 功能的窗口

图 2. 机器学习 (ML) 功能窗口。当您将鼠标悬停在按钮上以转到决策树功能(回归和分类)时,会显示工具提示。

用于过渡到使用决策树方法(回归和分类)应用机器学习算法的功能的窗口。

图 3. 过渡到使用决策树(回归和分类)管理机器学习算法的功能的窗口。当您将鼠标悬停在按钮上以转到决策树算法控制面板(回归)时,会出现下拉工具提示。

使用决策树方法(回归)的机器学习算法的控制函数的窗口。

图 4. 使用决策树方法(回归)的机器学习算法的控制函数窗口。将打开一个下拉列表以选择预测变量。

使用决策树方法(回归)-2的机器学习算法的控制函数的窗口。

图 5. 使用决策树方法(回归)的机器学习算法的控制函数窗口。勾选用于删除决策树深度限制的复选框。在相应的应用程序文件夹 (SCCPython\resources\Model_AI) 中更改模型参数时,选中该复选框可保存模型。

使用决策树方法(回归)-2的机器学习算法的控制函数的窗口。

图 6. 使用决策树方法(回归)的机器学习算法的控制函数窗口。将打开包含数学模型评估图类型的下拉列表。绘图区域显示测试数据集的“实际值与预测值”图。

使用决策树方法(回归)控制机器学习算法的函数窗口-4。

图 7. 用于控制决策树数学模型(回归)应用的函数窗口。使用图表下方的缩放工具在 X 轴上缩放图表以显示更少的点(从 140 到 196)。当您将鼠标悬停在按钮上以转至选择经过训练的数学模型以将其应用于以下步骤中选择的新数据的功能时,会显示下拉工具提示。

使用决策树方法(回归)控制机器学习算法的函数窗口-5。

图 8. 用于管理决策树数学模型选择(回归)的函数窗口。当您将鼠标悬停在包含所选训练数学模型路径的字段上时,会显示下拉工具提示。

使用决策树方法(回归)控制机器学习算法的函数窗口-7。

图 9. 用于管理决策树数学模型选择(回归)的函数窗口。当您将光标悬停在按钮上以转到选择要在数学模型中使用的数据的功能时,会显示下拉工具提示。

使用决策树方法(回归)控制机器学习算法的函数窗口-8。

图 10. 用于管理包含数据的文件的选择并将决策树(回归)的数学模型应用于它们的函数窗口。当您将鼠标悬停在“预测结果”按钮上时,会出现一个下拉工具提示。

使用决策树方法(回归)控制机器学习算法的函数窗口-9。

图 11. 用于控制决策树数学模型(回归)对导入数据的应用的窗口。通过单击“预测结果”按钮,模型将应用于导入的数据,操作完成后,将打开一个通知窗口,将预测值与源数据一起保存在 Excel 文件中。

如果您导入的数据包含一个或多个具有分类值的解释变量列,例如 [male,female],则将执行自动 One-Hot Encoding 过程,将数据转换为新的数字编码列 [0, 1]。热编码数据将保存在新工作表中的原始 [xlsx] 文件中。

使用决策树(回归)方法的数学模型精度较低的原因
  1. 有限数据:如果模型的输入数据有限或包含的信息不足,则模型可能会遇到数据不足而无法生成准确的预测模型的情况。
  2. 错误的特征选择:如果模型中包含不适当或不相关的特征,则可能会影响模型的准确性。选择正确的特征并清除数据中的异常值和噪声对于实现回归模型的高精度非常重要。
  3. 训练不足:如果模型训练时间不够长或不够复杂,无法近似数据中的复杂关系,则可能会产生较差的预测精度。在这种情况下,可能需要增加决策树的深度或使用其他机器学习技术。
  4. 过度拟合:如果模型的参数过多或决策树太深,则可能会在训练数据上过度拟合,并在新数据上表现不佳。对抗过度拟合的一种方法是使用正则化,例如摆动或约束模型参数。
  5. 数据不平衡:如果训练数据集包含的目标变量值示例数量不均匀,则可能会导致模型精度较差。在这种情况下,可能需要使用示例加权技术。
  6. 数据中的噪声:数据中的噪声或随机异常值可能导致回归模型的准确性较低。需要对数据进行初步分析并去除异常值,并采用平滑或过滤数据等方法减少噪声的影响。
采用分类方法的决策树,以连续量(测量值)作为输入,以分类数据(类)作为输出

例1.根据患者的临床检查结果,需要对他的诊断作出决定,例如患病/未患病。

示例2. 有必要根据对象或事件的许多特性(属性)的测量结果得出关于对象或事件属于特定类(类型)的结论。

使用决策树方法(分类)-1的机器学习算法的控制函数的窗口。

图 12. 用于管理决策树(分类)数学模型的训练和评估的函数窗口。当您将鼠标悬停在按钮上以转至使用分类方法的决策树算法的控制面板时,会显示下拉工具提示。

使用决策树方法(分类)-2的机器学习算法的控制函数的窗口。

图 13. 用于管理决策树(分类)数学模型的训练和评估的函数窗口。选中该复选框可消除决策树深度的限制。在相应的应用程序文件夹 (SCCPython\resources\Model_AI) 中更改模型参数时,选中该复选框可保存模型。当使用训练数据集中未包含的测试数据时,会显示一个下拉列表,其中包含训练模型的评估图类型的选择。

使用决策树方法(分类)控制机器学习算法的函数窗口-3。

图 14. 用于管理决策树(分类)数学模型的训练和评估的函数窗口以及“混淆矩阵”图。当您将鼠标光标悬停在按钮上时,会显示提示,进入控制面板以选择经过训练的模型以在下一步中导入数据。”

使用决策树方法(分类)控制机器学习算法的函数窗口-4。

图 15. 用于在下一步中为用户选择的数据选择经过训练的决策树(分类)数学模型的函数窗口。当您将鼠标悬停在按钮上以转到数据选择控制面板以将所选的训练模型应用于其中时,会显示工具提示。

使用决策树方法(分类)控制机器学习算法的函数窗口-5。

图 16. 将经过训练的数学决策树模型(分类)应用于用户选择的数据的功能窗口。当您将鼠标悬停在“预测结果”按钮上时,会出现工具提示。

使用决策树方法(分类)控制机器学习算法的函数窗口-6。

图 17. 将经过训练的数学决策树模型(分类)应用于用户选择的数据的功能窗口。通过单击“预测结果”按钮,模型将应用于导入的数据,操作完成后,将打开一个通知窗口,将预测值保存在 Excel 文件中。

使用决策树方法(分类)控制机器学习算法的函数窗口-7。

图 18. 用于管理决策树(分类)数学模型的训练和评估的函数窗口。在图形区域中,混淆矩阵显示得很大 - 决策树(分类)的第二种类型的图形。

如果您导入的数据包含一个或多个具有分类值的解释变量列,例如 [male,female],则将执行自动 One-Hot Encoding 过程,将数据转换为新的数字编码列 [0, 1]。热编码数据将保存在新工作表中的原始 [xlsx] 文件中。

使用决策树(分类)方法的数学模型精度较低的原因
  1. 数据量不足:如果模型使用少量数据进行训练,可能会导致准确率较低。可用于训练的数据越多,模型就越准确。
  2. 特征选择不充分:如果模型中包含不适当或不相关的特征,则会降低其准确性。选择与目标变量相关性最高的特征对于实现高分类精度非常重要。
  3. 数据预处理不充分:不正确的数据处理,例如不当的缩放或标准化,可能会导致模型精度较差。执行必要的数据预处理步骤非常重要,例如清除异常值或填充缺失值。
  4. 模型过度训练:如果模型过于复杂或参数过多,则可能会在训练数据上过度训练,并在新数据上表现不佳。例如,可以通过限制树深度或使用正则化来减少过度拟合。
  5. 类不平衡:如果数据中的类不平衡,即一个类支配其他类,则模型可能倾向于预测主导类,而对代表性较少的类显示出较低的准确度。在这种情况下,使用上采样或下采样等类平衡技术可以提高模型的准确性。
  6. 决策规则选择不正确:如果决定树节点中类分布的决策规则选择不正确,可能会导致模型精度较低。选择最准确地区分类别的适当决策规则非常重要。