人工智能入门概念介绍

作者:Shawn_Shawn日期:2025/12/15

最近公司正在推荐Ai相关项目,目前主要是大模型相关的应用层面开发,但自己还是希望能够基础入手,全方位了解一下机器学习,深度学习,强化学习,自然语言,大模型等Ai相关的知识点,仅了解相关概念,不去深入了解算法实现。本文主要介绍一下机器学习的基本概念。

什么是机器学习

引用周志华带佬的机器学习一书提到的案例,我们在生活中挑选西瓜的时候,经常会假嘛若鬼地敲一下西瓜,听一听声音,如果发出 “嘭嘭” 的闷声,说明西瓜成熟度好,果肉饱满。若发出 “当当” 的清脆声,可能西瓜还未成熟;若发出 “噗噗” 声,则可能西瓜内部已过度成熟或有腐烂现象。也有老手看外观,看瓜蒂,根茎,表皮,掂重量等操作,

这些都是经验之谈,都是人类从大量实验中探索出来的规律与模式。这一过程在人工智能中的实现就是机器学习

机器学习是计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的学科。

机器学习基本术语

我们还是以西瓜为例,其数据如下:

形状色泽瓜皮敲声瓜蒂
椭圆青绿嘭嘭粗壮
圆形绿色嘭嘭蜷缩

这些数据,每条数据都是关于一个西瓜的描述,形状,色泽,瓜皮,敲声,瓜蒂都是这条数据的属性(Attribute) ,属性的取值称为属性值(Attribute Value) ,不同的属性值有序排列得到的向量就是数据,也叫实例(Instance)或者叫做样本(Sample)

形状,色泽,瓜皮,敲声,瓜蒂作为五个坐标轴,这就是一个描述西瓜的五维空间,这些维度组成了特征空间(Feature Space) ,每一组属性值的集合都是这个空间中的一个点,所以我们也把每一个样本都称为特征向量(Feature Vector)。

我们知道,机器学习可说是从数据中来,到数据中去,需要机器学习能够从数据中学习得到一个模型,这个过程就叫做学习(Learning)或者训练(Training), 参与训练的数据被称为训练集(training data) ,其中每个样本都被称为训练样本(training sample)

我们训练出来的模型,到底效果如何,这个时候需要一部分数据进行验证(Validate) ,参与验证的数据则被称为验证集(Validation Data) ,其中每个样本都被称为验证样本(Validation Sample)

最后,我们如何对未知的数据进行推理判断,要判断一个未被剥开的瓜是好瓜还是坏瓜,这个过程叫做预测(Prediction) 或者叫做推理(Inference)

机器学习分类

如果我们仅对瓜判断好坏,这类的值为离散值,那么此类学习任务称为分类。瓜的好坏分类只有两种,一个是好,一个是坏,对于只有两个类别的任务,被称为二分类。涉及到多个类别时,则称为多分类

如果我们是对瓜的成熟度进行判断,例如瓜的成熟度为0.95,0.37,这类的值为连续值,那么此类学习任务称为回归,输入变量和输出变量均为连续变量。

我们还可以对瓜做聚类(Clustering) ,即将训练集中的西瓜分成若干组,每组称为一个簇(Cluster) 。把瓜可以分为浅色瓜,深色瓜,但是在聚类学习过程中,这些概念咱们事先是不知道,所以我们需要先标注。 这一类任务,被称为聚类任务,也可以是标注任务,输入变量和输出变量均为变量序列。

根据是否标注,可以将学习任务分为两大类:

  • 监督学习:基于已知类别的训练数据进行学习;
  • 无监督学习:基于未知类别的训练数据进行学习;

还有一种就是半监督学习:同时使用已知类别和未知类别的训练数据进行学习。

监督学习的主要代表就是分类和回归,无监督学习的主要代表就是聚类。

另外还有深度学习,强化学习

  • 深度学习:深度学习是机器学习的一个子领域,专注于应用多层神经挽留过进行学习,深度学习擅长处理复杂的数据如图像、音频、文本,因此在AI中的应用非常有效;
  • 强化学习:强化学习是一种通过与环境交互,并基于奖励和惩罚机制来学习最优策略的方法。强化学习算法通过试错法来优化决策过程,以实现最大化累积奖励。常见算法包括Q-Learning、策略梯度和DQN等。

机器学习整体流程

准备数据集

在做机器学习算法的时候,第一步就是要做数据集准备,有了数据集之后,可以做探索性数据分析(Exploratory Data Analysis),也可以做数据预处理(Pre-Processed Dataset)。

探索性数据分析

进行探索性数据分析(Exploratory data analysis, EDA)是为了获得对数据的初步了解。EDA主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。

探索性数据分析方法简单来说就是去了解数据,分析数据,搞清楚数据的分布。主要注重数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。

通常使用的三大EDA方法包括:

  • 描述性统计:平均数、中位数、模式、标准差。
  • 数据可视化:热力图(辨别特征内部相关性)、箱形图(可视化群体差异)、散点图(可视化特征之间的相关性)、主成分分析(可视化数据集中呈现的聚类分布)等。
  • 数据整形:对数据进行透视、分组、过滤等。

数据预处理

数据预处理,其实就是数据治理,对数据进行清理、数据整理或普通数据处理。指对数据进行各种检查和校正过程,以纠正缺失值、拼写错误、使数值正常化/标准化以使其具有可比性、转换数据(如对数转换)等问题。

数据的质量将对机器学习算法模型的质量好坏产生很大的影响。因此,为了达到最好的机器学习模型质量,传统的机器学习算法流程中,其实很大一部分工作就是在对数据进行分析和处理。

数据预处理的主要目的就是:减少噪音数据对训练数据的影响。

数据集本质上是一个M×N矩阵,其中M代表列(特征),N代表行(样本)。列主要有两部分组成,x和y,x为特征/独立变量/输入变量,y为类别标签/依赖变量/输出变量

数据分割

需要把预处理完成的数据,按照一定的规则,将完整的数据分割成训练集和验证集。

或者分割成训练集和验证集以及测试集

一般数据集分割的比例也如上图所示:

  • 训练集/验证集:80%/20%
  • 训练集/验证集/测试集:60%/20%/20%

模型训练

数据分割成训练集和验证集之后,就可以使用训练集,选择机器学习算法进行模型训练

常见的机器学习算法有:

  1. SVM:支持向量机
  2. KNN:k近邻算法(KNN)
  3. DL:深度学习
  4. GBM:Grandient Boosting Machine,机器学习梯度推进机
  5. RF:Random Forest,随机森林
  6. DT:Decision Tree,决策树

决定模型训练的好坏主要有两种手段:

  • 超参数调优
  • 特征工程

超参数

超参数是算法工程师用来管理机器学习模型训练的外部配置变量。有时也称为模型超参数,超参数会在训练模型前手动进行配置。与参数不同,超参数是在学习过程中自动导出的内部参数,而不是由数据科学家设置的。

常见的超参数有:

  1. 学习率是指算法更新估算值的速率
  2. 学习率衰减是指随着时间的推移,逐渐降低学习率,以加快学习速度
  3. 批次大小是指训练数据批次大小
  4. Epoch 是模型一次训练的轮数
  5. Eta 是指用于防止过拟合的收缩步长

超参数调优手段有:

  • 贝叶斯优化:贝叶斯优化是一种基于贝叶斯定理的技术,它描述了与当前知识相关的事件发生的概率。将贝叶斯优化用于超参数优化时,算法会从一组超参数中构建一个概率模型,以优化特定指标。它使用回归分析迭代地选择最佳的一组超参数。
  • 网格搜索:借助网格搜索,您可以指定一组超参数和性能指标,然后算法会遍历所有可能的组合来确定最佳匹配。网格搜索很好用,但它相对乏味且计算量大,特别是使用大量超参数时。
  • 随机搜索:虽然随机搜索与网格搜索基于相似的原则,但随机搜索在每次迭代时会随机选择一组超参数。当相对较少的超参数主要决定模型的结果时,该方法效果良好。

特征工程

特征工程是机器学习中最重要的一部分,因为根据已有的训练数据,可选用的算法是有限的;那么在同样的算法下特征的选取是不同的,100个人对一件事情会有100种看法,也就有100种特征,最后特征的质量决定模型的好坏。

特征工程是一个过程,这个过程将数据转换为能更好的表示业务逻辑的特征,从而提高机器学习的性能。

特征工程包括数据清理,特征提取,特征选择等过程

模型评估

最后训练出来的模型,需要用验证集进行验证。验证结果ok过后,将模型发布上线,对模型进行预估/推理,评估模型性能的性能指标有:

  • 二分类:准确率(AC)、灵敏度(SN)、特异性(SP)和马太相关系数(MCC)
  • 回归:确定系数(R²)、均方误差(MSE)以及均方根误差(RMSE)

经验误差与泛化误差

  • 经验误差:是指AI模型在“训练数据”上的预测误差。模型在已经见过的数据上的表现有多好。就像学生做自己平时一直练习的题,做错的比例。
  • 泛化误差:是指AI模型在“新、未见过的数据”上的预测误差。模型在实际应用时,能不能正确应对新情况。学生去参加考试,做没练过的新题,做错的比例,代表模型的“真实水平”。

过拟合与欠拟合:

  • 过拟合:模型在“训练数据”上表现非常好,但在新数据(实际应用)上效果很差。
  • 欠拟合:模型在训练数据上和新数据上都表现很差。

****

指标计算公式:

真正例率和假正例率

****实际正例实际负例
预测为正例TP(真正例)FP(假正例)
预测为负例FN(假负例)TN(真负例)
  • TP和TN越大越好
  • FP和FN越小越好

真正例率:又称召回率,也称查全率:

假正例率:又称误报概率:

准确性:所有分类中正确分类的比例:

精确率:模型所有预测为正分类中实际正分类的比例:

PR 曲线(Precision-Recall Curve) : 是一种用于评估分类模型性能的可视化工具,特别适用于样本类别极度不平衡的任务。

  1. A 表现最好的模型,查准率和查全率整体较高。
  2. B表现最差的模型,查准率下降很快,说明大量误报。
  3. C中等水平,查全率上升时查准率下降较缓慢。

F1计算公式

ROC曲线:

  • ROC 曲线 是模型在所有阈值上的表现的可视化表示。
  • ROC 曲线的绘制方法是计算真正例率 (TPR) 和假正例率 (FPR) 值
  • ROC 曲线下面积 (AUC) 表示模型的概率,如果给定一个随机选择的正类别和负类别样本,正值将大于负

参考文献


人工智能入门概念介绍》 是转载文章,点击查看原文


相关推荐


无需修改测试用例实现Selenium四倍性能提升的完整方案
测试人社区—52722025/12/6

在测试自动化中,Selenium的执行效率直接影响项目交付速度和资源成本。本文将针对无需修改测试用例的前提,从驱动配置、执行策略及环境优化三个维度,系统介绍提升Selenium执行速度400%的实战方案。 一、浏览器驱动层深度优化 1. 启用新一代无头模式(Headless Mode) # Chrome无头模式配置示例 options = webdriver.ChromeOptions() options.add_argument('--headless=new') options.add


JWT教程
y1y1z2025/11/28

JWT技术 描述:JWT是用于根据特征值生成Token(凭证)的工具库,常用于身份校验功能 JWT特性 JWT天然携带信息,可以快速实现“多设备登录” 管理、登出、重复登录检验等功能JWT支持签名加密,开发者也可以初步校验特征值,保证了一定的安全性 token = Header + Payload + Signature Header:签名算法 + token类型(固定为JWT),例如{ "alg": "HS256","type": "JWT"}Signature:密文最后拼接密钥


Gradle 基础篇之基础知识的介绍和使用
一线大码2025/12/23

1. 项目结构 目录介绍: build.gradle:项目编译时要读取的配置文件,build.gradle有两个,一个是全局的,一个是在模块里面。全局的build.gradle主要设置的是声明仓库源,gradle的版本号说明等。 gradlew:linux下的gradle环境脚本。可以执行gradle指令,比如./greadle build。 gradlew.bat:windows下的gradle环境脚本。可以执行gradle指令。 settings.gradle:包含一些必要设置,例如,任


机器学习数据集完全指南:从公开资源到Sklearn实战
郝学胜-神的一滴2026/1/1

机器学习数据集完全指南:从公开资源到Sklearn实战 1. 引言:为什么数据集如此重要?2. 机器学习公开数据集大全2.1 综合型数据集平台2.2 领域特定数据集 3. Sklearn内置数据集详解3.1 小型玩具数据集3.2 大型真实世界数据集3.3 完整列表 4. Sklearn数据集加载实战4.1 基本加载方法4.2 数据集对象结构4.3 转换为Pandas DataFrame 5. Sklearn数据集处理API大全5.1 数据分割5.2 特征缩放5.3 特征编码5.4


Incremark Solid 版本上线:Vue/React/Svelte/Solid 四大框架,统一体验
king王一帅2026/1/10

Incremark 现已支持 Solid,至此完成了对 Vue、React、Svelte、Solid 四大主流前端框架的全面覆盖。 为什么要做框架无关 市面上大多数 Markdown 渲染库都是针对特定框架开发的。这带来几个问题: 重复造轮子:每个框架社区都在独立实现相似的功能 能力不一致:不同框架的实现质量参差不齐 团队切换成本:换框架意味着重新学习新的 API Incremark 采用不同的思路:核心逻辑与 UI 框架完全解耦。 @incremark/core 负责所有解析、转换、增量更


【我与2025】裁员、旅游、找工作、媳妇没跑
修己xj2026/1/18

现在是2026年1月下旬。以往的年终总结总被搁置,今年却有些不同——家里添了新成员,自己的心态也悄然变化。于是决定写下这些文字,既是回顾我的2025,也是一次认真的复盘。 裁员 2021年6月,我加入上一家公司,一待就是四年。2025年收到的第一份“礼物”,竟是公司的裁员通知。我负责的是运营业务系统,因为常有线上问题需要处理,所以即便下班后、节假日也离不开电脑。几年来,我几乎没出省旅行过,每次回家都随身带着电脑,随时待命。 刚入职时,公司正处于扩张期,盈利状况很好。没过多久,就搬进了自购的整层


爷爷你关注的前端博主复活了!! 他学python去了??
jinzunqinjiu2026/1/27

如何配置python环境。 hello,兄弟们马上过年了,想死你们了。转眼间就已经毕业半年。也工作了快一年了。从实习生一路跌跌撞撞,从刚开始连react的状态依赖都老是写死循环到现在已经经历过很多项目了。说来这一年也有很多成长,参与了公司很多的项目,看过各种代码。最终在ai的加持下已经能够独挡一面。但是最近公司开始掀起了一股ai风,以及网上ai全栈的兴起,我想我是坐不住了。深耕前端 or 技术转型。 小孩子才做选择,前端为主ai为辅,所以我要开始学习python逐渐开始学习ai应用了。正好我也没


你这一生到底该如何赚钱?
袁庭新2026/2/5

大家好,我是袁庭新。 赚钱是每个成年人每天的头等大事,那你有没有认真思考过:你这一辈子到底应该如何赚钱?根据这几年的总结,我认为赚钱的方式无非以下三种: 用时间赚钱 用金钱赚钱 用金钱和时间一起赚钱 这三种赚钱方式的回报是不一样的,它们依次越来越大,最牛的就是用“时间+金钱”赚钱。 我们绝大多数人一生摆脱不了“用时间赚钱”这种模式,想要获得更多回报就低拼命上班加班。但,用时间赚钱的方式是可以改良的,最核心的策略就是“想尽一切办法把自己的同一份时间出售很多次”,举几个例子吧,比如:讲课、写书


聊一聊 CLI:为什么真正的工程能力,都藏在命令行里?
G探险者2026/2/14

大家好,我是G探险者! 今天我们来聊一聊CLI。 在很多人眼里,命令行(CLI,Command Line Interface)是“黑框 + 英文命令”的代名词。 对普通用户来说,它晦涩、难记、不友好。 但对工程师来说—— CLI 是系统可编排能力的起点,是自动化的基础设施,是 DevOps 的地基。 今天我们不从“怎么用命令”讲起,而是聊一聊: CLI 是怎么诞生的? 为什么它没有被 GUI 取代? 为什么所有现代基础设施几乎都优先设计 CLI? 为什么 CLI 是工程能力的分水岭?


SpringBoot多环境配置实战指南
北极的代码2026/2/22

前言:在之前的开发环境中要跟改配置,测试环境也要改,每次切换环境都要手动修改配置文件 常常发生"我们在本地能运行,怎么部署到服务器就报错"的情况,一不小心就把测试环境的配置提交到代码库。因此我们提出了多环境开发配置。 多环境开发配置: 在SpringBoot中,多环境配置的管理核心是利用Profile机制,它允许我们为不同的运行环境(开发,测试,生产)定义独立的配置,并在应用启动时动态的激活,从而实现配置等隔离与灵活切换。 核心实现方式:Profile 特定配置文件 总之就

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客