2025年07月01日12:41 北京
一、人工智能的概念
人工智能指人造的,而不是自然的,且能独立完成某件事,具有认知和分析判断能力。若一台机器与人对话且不被辨别出其身份,则该机器通过了图灵测试,其说明具有智能。
IBM的“深蓝”计算机在国际象棋战胜人类,其采用了暴力搜索方式(穷举法),谷歌AlphaGo在围棋中打败李世石、柯洁,采用了蒙特卡罗树搜索和强化学习。
数据存储和处理工具的发展:中央处理器CPU->图形处理器GPU->通用图形处理器GPGPU->张量处理器TPU,支撑人工智能迭代升级。第一代人工智能基于规则、第二代人工
智能基于传统机器学习、第三代人工智能基于深度学习。人工智能解决问题包括五步:提出问题-准备数据-训练(学习)模型-测试模型-应用模型。
机器学习从任务类型上分为监督学习和无监督学习,从学习方法上分为传统机器学习和深度学习。机器学习的三要素:数据+算法=模型。传统机器学习基于人工进行特征选取,
常用的模型有线性回归、逻辑回归、朴素贝叶斯分类、K均值聚类、支持向量机、隐马尔可夫模型、谱聚类。深度学习由神经网络构成,神经网络是一个多层网络,由神经元和
连接构成,包括CNN-卷积神经网络,RNN-单循环神经网络,LSTM-长短期记忆模型。
深度学习的主要应用领域:
1)图像处理:如安防人脸识别、自动驾驶的物体识别、发票扫描的光学图像识别(OCR)。
2)语言处理:语音识别、语音合成,如智能音响、机器人客服、语音转文字、自动朗读、手机语音助手。
3)自然语言处理(NLP):文本分析、提取摘要、自动翻译。
4)知识图谱:描述现实世界中的实体、事物间的客观关系。由节点和边构成,节点是实体、边是关系。
人工智能的典型应用场景:
1)对话系统:聊天机器人、智能语音客服
2)智能教育:识别听课状态、OCR一键搜题
3)艺术创作:生成画作或乐章
4)智能推荐系统:用户画像、智能推荐内容和商品
5)自动驾驶
人工智能的岗位,与AI的技术栈有关:
1)顶层-算法层:算法科学家
2)中层-工程层:算法工程师负责特征工程和模型训练、平台工程师负责服务平台开发、模型部署、监控与运营。
3)下层-数据层:大数据工程师负责数据收集、存储、处理。数据标注工程师负责数据标注。
二、数据预处理
数据预处理流程包括数据收集、数据预处理、数据分析,数据科学家50-80%的时间用于收集和准备数据。
数据质量指标包括“六性”:准确、及时、完整、一致、有效、唯一,数据清晰主要对数据冗余、异常、缺失值进行处理。
特征工程是对数据进行特征构造,是机器学习的一大难题,传统机器学习需要人工定义特征,编码方法由0-1编码,独热编码,哈希编码。
数据离散化是将连续的数据转化为离散数据,并划分不同的区间,打上标签,如考试成绩分为不及格、及格、良好、优秀。数据归一化是对数据进行收敛,去除量纲,将其固定
在一定范围内容。数据标准化是将服从正态分布的数据转为服从标准整态分布。
三、数据可视化
数据可视化指用图表的方式表示数据,为了1)帮助理解数据、发现数据规律和价值,辅助决策。2)帮助阐述或佐证我们的观点。包括二维数据可视化、三维数据可视化、高维数据可视化。
数据可视化的原则(塔夫特原则):1)让数据说话,尊重原始数据。2)尊重事实。3)适当标注。4)善用对比。5)内容重于形式。6)风格一致,包括颜色、比例尺等。
常用的数据可视化图表类型有:
1)单变量可视化:直方图、KDE图、箱形图、饼图等
2)多变量可视化:条形图、散点图、折现图、复核图形
3)高维数据可视化:热力图、平行坐标图、图标矩阵
四、机器学习基础
机器学习指赋予计算机一种能力,使其在无须显性编程情况下工作并完成任务。人工智能包括机器学习,机器学习包括深度学习。
包含关系如:【人工智能{机器学习(深度学习)}】
机器学习是对既往的经验进行学习,从而获得处理任务的方法。
1)监督学习:从有正确答案的经验中进行学习。
2)无监督学习:主动发现输入信息中的规律,自行标注和分类。
机器学习的三要素:数据+算法=模型
1)数据:指通过观测得到数字性的特征或信息,计算机中向量化才能识别。
2)算法:一组计算机可执行的指令组合,AI领域的算法指模型训练程序的逻辑。
3)模型:一组由程序自动生成的程序,模型处理数据得出结果的过程成为预先处理。
AI落地的过程:场景->问题->任务->模型,场景是在什么情况下做一件什么事情,遇到了什么问题,将问题的解决方案转化为一个或多个任务,将任务解决封装成一个模型。
模型的生命周期分为三个阶段:
1)数据处理阶段:收集与清洗(去重、纠错、补缺失)-数据标注(打标签)-数据编码(向量化)-划分数据集(训练集、验证集、测试集)
2)模型生成阶段:模型训练(可借助公有云AI训练平台)-模型验证与测试-模型性能评估(调优)。
3)模型使用阶段:模型部署(容器化部署)-模型使用(在线的模型可以通过API调用)
五、神经网络基础
神经网络是模仿生物神经结构和功能的计算模型,用来对函数进行估计和模拟,其发展经历了:感知机->联结主义->深度学习。
神经网络包括输入层->隐藏层(可包括多层)->输出层,只包含一个隐藏层的神经网络称为浅层神经网络,否则成为深度神经网络。
1)卷积神经网络(CNN):是一种具有局部连接,权重共享等特征的前馈神经网络,由卷积层、池化层、全连接层构成。
2)循环神经网络(RNN):其神经单元可以接收其他神经元信息,也可以接收自身信息,从而形成具有循环的网络结构。
3)长短期记忆网络(LSTM):由计算单元、输入门、输出门和遗忘门构成。
4)Transformer:由自注意力机制(将核心资源分配至更重要的任务)和前馈神经网络构成,采用了“编码器-解码器”结构
深度学习面临的挑战:
1)模型复杂、参数多;
2)对噪声建模导致过度拟合,影响性能和泛化能力。
六、智能对话机器人(BOT)
BOT应用涉及文本机器人、语音机器人、多模态数字人,按照对话的目标分为:闲聊型、问答型、任务完成型。
BOT发展方向:
1)数据驱动:专注于知识库建立、优化并更新,以确保回答精准、提升回答的广度和深度。
2)通过自然语言处理和深度学习,使其更具人性化。
BOT主要包括三个主要模块:自然语言理解、知识库、对话流程管理。
—自然语言理解模块的核心技术包括:
1)嵌入:将文字或词转换为机器可处理的向量,包括词嵌入、句嵌入
2)实体抽取:将一句话的实体抽取出来
3)意图识别
—知识库模块
1)常见知识库(FAQ):获取问题-在预置问题中匹配-获得相应的预置问题-将预置答案返回用户
2)基于结构化数据库的知识库:获取问题-解释问题语义-查询数据-返回结果至用户
3)基于知识图谱的知识库:获取问题-解释问题语义-构建数据库查询语句-在知识图谱中查询和过滤-返回结果至用户。
geophysical
广西地球物理学会
Guangxi Geophysical Society