最新帖子

最新回覆

打印

爸爸,什麽是機器學習呀?”

爸爸,什麽是機器學習呀?”

爸爸,什麽器學習呀?


難以回答!抓了抓開始脫發的腦殼,爸比還是被這個問題KO了。這個有些學術的問題,如何給孩子解答?

近日,計算機科學博士Daniel Tunkelang就在Quora上回答了這個問題——



不如我們由機器學習中的分類問題入手,教計算機學習哪些食物好吃,哪些難吃。

和人類不壹樣,計算機沒有嘴巴,不能品嘗食物。所以,我們需要用很多食物樣例(標記的訓練數據)教會計算機。這項樣例中有美味的食物(正例),也有惡心的(負例)。對於每個被標記的示例,我們給計算機提供了描述食物(特征)的方法。

正例被標記為“美味”,比如巧克力冰泣淋、披薩、草莓等。負例被標記為“惡心”,比如鳳尾魚、花椰菜和球芽甘藍。

在真正的機器學習系統中,妳可能需要更多的訓練數據,但3正3負的例子夠我們了解概念了。



現在,我們需要壹些特征。不妨就將這些樣例設置為甜、鹹和蔬菜三個特征,因為為二元特性,所以每種食物的每個特征都被賦予“是”或“否”的值。



有了這些訓練數據後,計算機的工作就是從這些數據中總結壹個公式(模型)。這樣,當它會遇到新食物時,它能根據模型決定食物是美味還是惡心的。

壹種模型是點系統(線性模型)。如果具備每個特性,就會得到壹定分數(權重),如果不具備就沒有分數。然後,模型將食物的點數加起來,得到最終分。

模型裏有壹個分界點,若得分高於分界點,模型就判定食物美味;如果分數低於分界點,就判定為難吃。

根據訓練數據,模型中的特征分可能會被設置為甜3分,鹹1分,松脆1分,蔬菜為-1分。則巧克力冰泣淋、披薩、草莓、鳳尾魚、花椰菜、和球芽甘藍在模型中的得分如下:



權重讓選擇分界點更容易,因為正例都得分≥2,負例得分≤1。

總能正確找到權重和分界點不太容易。即使找到了,最終可能會得到壹個只適用於這個訓練數據的模型,但當我們用新例子時,模型效果就沒這麽好了(過度擬合)。

理想的模型不僅在訓練數據中正確率高,在新例中仍然有效(泛化)。通常,簡單模型比復雜模型(奧卡姆剃刀)更容易壹般化。

我們可以不使用線性模型,構建決策樹也是個好方法。在決策樹中,只能問能用“是”和“否”回答的問題。

用訓練數據讓決策樹答對並不難,在這個示例中訓練數據是這樣利用的:

這是蔬菜嗎?

如同線性模型,我們需要擔心過度擬合,不能讓決策樹太深。所以這意味著最終可能會有壹個模型,雖然在我們的訓練數據上會犯錯,但能對新數據更好泛化。

希望孩子能聽懂這個機器學習的解釋~

TOP

新宿王子大飯店

優惠價:HK$998

原價:1,050

東京新宿華盛頓酒店

優惠價:HK$768

原價:1,018

新宿新城市酒店

優惠價:HK$778

原價:972

HUNDRED STAY Tokyo Shinjuku

優惠價:HK$861

原價:1,013

重要聲明:本網站討論區內容是以即時上載留言的方式運作,Qoos.com 對所有留言的真實性、完整性及立場等,不負任何法律責任。一切留言之言論只代表留言者個人意見,並非本網站之立場,用戶不應信賴內容,應自行判斷內容之真實性。由於本討論區受到「即時上載留言」運作方式所規限,故不能完全監察所有留言,若讀者發現有留言出現問題,請聯絡我們。Qoos.com 有權刪除任何留言及拒絕任何人士上載留言,同時亦有不刪除留言的權利。切勿撰寫粗言穢語、誹謗、渲染色情暴力或人身攻擊的內容,敬請自律。