每次進我的信箱 都發現有的郵件被歸為垃圾郵件
其運作方式是靠機率統計的貝式統計(Bayes stastic ;使用條件機率重算機率,提高預測準確度)
教科書上 常舉的例子就是有A與B兩個箱子 裡面各自有紅球籃球 A裡面有較多的紅球 B裡面有較多籃球
P(A/B)=[P(A發生垃圾郵件使用語彙1,B發生垃圾郵件使用語彙1)+...+P(A發生垃圾郵件使用語彙n,B發生垃圾郵件使用語彙n)]/[P(B發生垃圾郵件使用語彙1)+....+P(B發生垃圾郵件使用語彙n]
A為垃圾郵件寄件人使用之語彙箱
B為一般郵件寄件人(包括垃圾郵件寄件人)使用之語彙箱
電腦收到郵件時就會檢索信件內使用語彙
並從過去郵件資料中整理各語彙使用程度 計算出各語彙的危險率(拿到紅球機率;P(B發生垃圾郵件使用語彙i)) 判斷是否為垃圾郵件經常使用語彙
傳送過來郵件中 使用危險率高的語彙愈多,該郵件從A寄來的可能性愈高
把各個語彙(i:降價 郵購 匯款 免費.... 等等)都這樣計算後再加總就可以得到該郵件是垃圾郵件的機率(A箱寄來機率)
經過計算所得的垃圾郵件機率超過基準值,該郵件就會被判定為垃圾郵件
以上是牛頓雜誌介紹的內容
其運作方式是靠機率統計的貝式統計(Bayes stastic ;使用條件機率重算機率,提高預測準確度)
教科書上 常舉的例子就是有A與B兩個箱子 裡面各自有紅球籃球 A裡面有較多的紅球 B裡面有較多籃球
P(A/B)=[P(A發生垃圾郵件使用語彙1,B發生垃圾郵件使用語彙1)+...+P(A發生垃圾郵件使用語彙n,B發生垃圾郵件使用語彙n)]/[P(B發生垃圾郵件使用語彙1)+....+P(B發生垃圾郵件使用語彙n]
A為垃圾郵件寄件人使用之語彙箱
B為一般郵件寄件人(包括垃圾郵件寄件人)使用之語彙箱
電腦收到郵件時就會檢索信件內使用語彙
並從過去郵件資料中整理各語彙使用程度 計算出各語彙的危險率(拿到紅球機率;P(B發生垃圾郵件使用語彙i)) 判斷是否為垃圾郵件經常使用語彙
傳送過來郵件中 使用危險率高的語彙愈多,該郵件從A寄來的可能性愈高
把各個語彙(i:降價 郵購 匯款 免費.... 等等)都這樣計算後再加總就可以得到該郵件是垃圾郵件的機率(A箱寄來機率)
經過計算所得的垃圾郵件機率超過基準值,該郵件就會被判定為垃圾郵件
以上是牛頓雜誌介紹的內容
文章標籤
全站熱搜

數學真的很難 不過這算式除了用在擋垃圾郵件還可以用在什麼嗎?
範圍很廣喔 我很難說明白 指可以說任何有條件機率的 它就可能用到
我想網站關鍵字過濾或防火牆封包過濾應該也在其中之一
我想也是 對了 那個決策函數 有先驗(prior)分配與後驗(posterior)分配也有使用到貝式定理
其實我是不懂這個算式的 數學自從高中後就沒再碰過 不過這個貝式定理好像常被運用的樣子 像這一篇就有提到 http://research.ncku.edu.tw/re/articles/c/20091030/3.html 但那算式對我來說已經像外星語言一樣。
如果把高等機率論與微積分給結合成為高等數學的隨機微積分 那又更難 會多出一項布朗運動(隨機漫步近似常態分配)