【深入了解】每天都聽到的Buzzword：拆解Machine Learning的基本概念，成為科技潮人！(上)

當你在Google Search中輸入＂Machine Learning”這個每個人都在說的Buzzword，你就像打開了一個潘多拉的盒子。裏面充滿了你看不懂的學術文章，還有大大小小的討論區。當你看完了數篇文章，你可能仍弄不懂Machine Learning這個新地圖的全貌。

那甚麼是Machine Learning？

以下的定義並不是學術上最精確的定義，但對具有商業頭腦的人士來說這卻是最直白的語言，

Machine Learning是一門讓電腦像人類般學習和行動的科學。並在過程中通過閱讀來自真實世界的資料和互動，自動改進學習的效率。

把以上的句子拆解，我們首先要提供電腦最容易明白的資料—數據給電腦。再通過特殊的程序，令電腦也能像我們般學習和做決定。最重要的是電腦還會愈學愈好，愈學愈快。其中一樣最常被提到的應用就是極其準確的預準，一個訓練有素的電腦對未來特定事件預測準確度可超越絕大部份的人類。

Machine Learning 的基礎概念

要完成Machine Learning的目標最需要的當然是精妙的程式和演算法。作為富有商業頭腦的人才當然不需要懂複雜的演算法。但最基本也需要知道Machine Learning的基礎概念，才不致於被一個所謂”有看頭”的創科項目蒙在鼓裏。

Machine Learning的演算法可以有2種分類方法。第一種是按學習的模式(Learning Style)，可以分為監督式學習，非監督式學習，半監督式以及增強式學習四類。

監督式學習就像一個個性單純的孩子。你需要將一件事情解釋很多次他才會明白。比如你想教會他分辨甚麼是樹，你首先要給他看大量的圖片，然後告訴他這張圖片上的是不是樹，當他看了足夠多的圖片時，便能夠自行分辨甚麼是樹，甚麼不是了。
Photo from Internet
非監督式學習就像是一個聰明的孩子，能夠自動自覺地對眼前大量的資料進行分析和分類。以分辨樹木的為例，你只需要給他看足夠多的圖片，就能自動分門別類出甚麼是樹。更甚者可以分辨出樹木的種類如喬木、灌木。但也他有可能會想出你意想不到的分類方法。當然也無從知道他的分類只否正確。
半監督式學習就是取上兩者的平衡。在分辨樹木時所提供的相片中，先告訢這個孩子一部份的答案，餘下的就讓他自行探索。這樣做不但節省了逐一告訴他答案的時間，也能確保不會作出奇怪的分類。
增強式學習就像是一個好勝的孩子，不甘心失敗。當他在分辨哪些相片中有樹木時，雖然我們不會給他任何提示。但卻做在他完成後告訴他做得好不好。若然效果未如理想，他就會不甘心並從新以不同的方法再分類一次。直到我們認為做得足夠好為止。
Photo from Internet

以上4種的學習模式各有優劣。實行的難度，所需的資料量，訓練的時間不盡相同，並沒有最好的學習模式一說。

我們亦可以從另一個角度去看待Machine Learning，那就是功能上的分別。Machine Learning作為一個大學科自然能夠應付不同類別的任務。常見的類型有以下數種。

分類。假如你有一大堆關於顧客的購物習慣資料，你希望知道哪些顧客是具有大量的消費力的核心客戶。若果以人手分析上萬份的資料是相當的費時。以Excel等工具又只能作出簡單的推測並非相當準確。懂得分類的Machine Learning演算法此時就顯得相當重要。他能夠從海量的資料中分析出核心顧客群的特點。並以此歸納出全部的核心顧客。
Photo from YouTube
分群。你又收到了一堆關於顧客購物習慣的資料，但這次你希望知道要怎樣投放廣告才能提升到最多的生意額。那投放廣告的時機和對像就變得相當重要。利用分群的Machine Learning演算法可助你分析出你數個主要的客戶群體，讓你能針對每個群體的特定需要制定最佳的廣告方案。與剛才提及的分類不同。分群的目的並不在於告訢你這位顧客是不是某一類客戶群，而在這類客戶群中有哪一些的特點。在邏輯上有先後的分別。
迴歸分析。當你需要作出一項預測時，迴歸分析往往是你的好幫手。典型的例子是股市的預測。給電腦過往數年股市的升跌、成交量等資料。迴歸分析可以預測出未來股市的走勢。雖然預測明天的股市是仍然是一件相當困難的事。但投資者仍可就預期趨勢調整投資策略。目前機構投資者以及大行亦在大量招聘數學、統計和電腦科學的人才，希望建立出準確的股市預測模型。
Photo from Microsoft
決策樹。同樣是對預測結果的好幫手。以烤Pizza為例。我們希望知道怎樣烤Pizza才能更食客感到美味。於是我們把烤Pizza的各項條件(溫度、濕度)放到決策樹中，再計算出每個條件會達到好吃的Pizza的機率。
Photo from Internet