什么叫机器学习
机器学习(machine learning)
根据已知数据来不断学习和积累经验,然后总结出规律并尝试预测未知数据的属性,是一门综合性非常强的多领域交叉学科,涉及线性代数、概率论、逼近论、凸分析和算法复杂度理论等学科。目前机器学习已经有了十分广泛的应用,例如数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、信用卡欺诈检测、证券市场分析、DNA序列测序、语音和手写识别、推荐系统、战略游戏和机器人运用等。
总体来说,机器学习算法和问题可以分为有监督学习和无监督学习两大类。
在有监督学习算法中,所有数据带有额外的属性(例如每个样本所属的类别或对应的目标值),每个样本都必须同时包含输入(如样本的特征)和预期输出(也就是目标),通过大量已知的数据不断训练和减少错误来提高认知能力,最后根据积累的经验去预测未知数据的属性。分类和回归属于经典的有监督学习算法。在分类算法中,样本属于两个或多个离散的类别之一,我们根据已贴标签的样本来学习如何预测未贴标签样本所属的类别。如果预期的输出是一个或多个连续变量,则分类问题变为回归问题。
在无监督学习算法中,训练数据包含一组输入向量而没有相应的目标值。这类算法的目标可能是发现原始数据中相似样本的组合(称作聚类),或者确定数据的分布(称作密度估计),或者把数据从高维空间投影到低维空间(称作降维)以便进行可视化或者减少特征数量并提高分析速度。