机器学习 | 机器学习入门知识

最近正尝试用机器学习的方法解决线性回归和趋势预测问题,这里将自己对机器学习的初步理解整理至此。

机器学习 (Machine Learning) 研究的主题是如何让计算机具备与人类同等的思考和分析能力。机器学习主要基于认知学、计算机科学,统计概率学以及信息决策学。典型的机器学习应用包括照片分类、垃圾邮件识别、自然语言处理等。最近很火热的围棋人工智能AlphaGo就是采用了深度神经网络对大量棋局进行学习,从而具备了顶尖围棋选手的水平。

机器学习的应用领域有:
- 经济学模型建立
- 图像处理和机器视觉
- 生物DNA解码
- 能源负载、使用、价格预测
- 汽车、航空和制造
- 自然语言处理
- ... ...

Machine Learning从其采用的学习方式来说有以下三大类:
- 监督学习 (Supervised Learning):用于训练的数据包含已知结果(回归与分类问题)。
- 无监督学习 (Unsupervised Learning):用于训练的数据不包含已知结果(聚类问题)。
- 强化学习 (Reinforcement Learning):用于训练的数据不包含已知结果,但是可以用Award函数对其进行评价。

ml_category
▲ 图. 机器学习的分类(图中没有强化学习,一般强化学习会被认为是semi-supervised)[1]

监督学习用于数据中已包含已知标签。言下之意就是用于训练的数据已经具备了对应的输出。比如有一份得癌症与否和肿瘤块大小的对应数据,对单一肿瘤块大小数据而言,其对应的是否患癌症是已知的;再比如需要训练一个神经网络,学习判断一个图片中的主体是猫还是狗。那么用于训练的图片集中,每一张图片都会有已知对应的'这张图片是猫'或'这张图片是狗'的标签。通过对已知数据的学习与理解,从而在新数据出现时具有一定的预测能力。

而非监督学习则是对样本并没有既成标签,而是要通过模式搜索的方式对相似的一些元素进行聚类。典型的聚类问题有:基因序列分析,市场调研,物体识别等。

现在常见的机器学习算法有:

MachineLearningAlgorithms

▲ 图. 常见Machine Learning算法的思维导图,点击放大 (Picture from http://machinelearningmastery.com/)

除了主流的聚类,回归和贝叶斯之外,采用神经网络的Deep Learning深度学习是现在最热门的话题。机器学习的方法很多,在选择使用什么方法时,首先必须要确定自己所面对的是哪一种机器学习问题。在确定了分类后,可以根据下图选择具体方法:


ml_methods
▲ 图. Machine Learning算法的选择 [1]

Reference

[1] Introducing Machine Learning, Mathworks

From YunFei Robotics Laboratory | 云飞机器人实验室 - 机器学习 | 机器学习入门知识

Leave a Reply

Be the First to Comment!

Leave a Reply

wpDiscuz
%d bloggers like this: