數據是人工智能(AI) 的燃料。這是我研究這個想法後的意見,但可能許多專家會同意這種觀點被廣泛接受。數據本身並不能支撐人工智能的預測,但沒有數據,系統就不會做出預測。如果AI 模型給出錯誤的建議或答案,數據偏差是AI 預測的主要問題。
“仁慈是無敵的,但只有真誠,沒有虛偽和偽裝。 因為如果你一直表現出善意,即使是最惡毒的人,如果有機會,你也會溫柔地指出他們哪裡出錯了——因為他們正試圖傷害你?” — 馬庫斯·奧勒留,冥想,11.18.5.9a
數據偏差可以通過兩種方式存在——系統性和偶然性。
系統地:如果我們記錄一個人的種族,該信息將被發送到從中學習的模型,並且只會提供一個刻板印象。一個人正在尋找一隻寵物,他們輸入的數據表明他們想要一隻狗,並且只顯示狗的品種。由於系統性偏見,該人可能會過濾其他寵物。
順便說一句:如果最初記錄的數據有一定的偏差,那麼調整幾個變量位姿的數據是很困難的; 模型可能會得到錯誤的反饋,但實際上它是正確的。由於數據偏差(以一種或兩種方式存在),AI 預測無法準確並迫使結論存在偏差。
由於各種原因,數據偏差會影響AI 預測。數據偏差影響AI 預測的一種方式是對輸入到機器學習算法中的數據的影響。一個例子是當人類有意或無意地使輸入到機器學習算法中的數據產生偏差時。例如,當人類為機器學習算法對數據進行分類時,他們可能會將一組人分類為“白人”和“男性”,而不考慮其他變量,例如膚色、性取向、年齡或性別。
人類可能已經這樣做了,而沒有意識到機器學習算法會分析該數據並以相同的方式對所有未來數據進行分類。數據偏差影響AI 預測的另一種方式是數據對預測的影響。例如,由於輸入到機器學習算法中的數據,機器學習算法可能學會預測“低”的生活質量,例如輸入到機器學習算法中的數據是否是所有失業人員。機器學習算法將預測失業者的生活質量“低”,因為它已經了解到失業者的生活質量“低”。
數據偏差影響人工智能預測的第三種方式是數據對機器學習算法的影響。例如,如果輸入到機器學習算法中的數據都是失業的“黑人”,那麼當機器學習算法進行預測時,它會預測失業的“黑人”的生活質量“低” .
數據偏差影響人工智能預測的第四種方式是數據對使用數據的人的影響。例如,如果一個想買房子的人使用人工智能機器學習算法的數據,這個人可能會受到數據的影響,並根據機器的預測選擇房子。如果機器的預測有偏差,那麼這個人可能會選擇不在他們價格範圍內的房子。
數據偏差還會通過數據對模型預測結果的影響來影響AI 預測。例如,如果輸入到機器學習算法中的數據是超重和高糖攝入的人,它會預測超重和高糖攝入的人患糖尿病的機率“很高”。這是因為機器學習算法已經了解到,超重和高糖攝入量的人患糖尿病的機率“很高”。最後,數據偏差會通過數據對決策制定的影響來影響AI 預測。例如,如果使用機器學習算法來預測是否應該允許某人購買某件商品,則輸入到機器學習算法中的數據中的偏差可能會導致它預測不應允許某人購買某件商品由於他們的人口統計。
數據偏差的主要影響是它扭曲了可用數據和所做預測的質量。在AI 預測方面,數據偏差是一個主要問題。它們來自各種來源,包括社交媒體、我們在網上搜索的內容以及我們點擊的內容。隨著世界通過這些技術變得更加緊密,數據偏差的數量和對預測的影響只會增加。
另一個偏見是當我們使用被人類操縱的數據源時。當人們發布虛假信息以影響選舉或影響公眾輿論時,就會發生這種情況。然後,AI 將根據該錯誤數據進行預測。
如果人工智能係統是用有偏見的數據訓練的,那麼它很可能也會從數據中得出有偏見的結論。例如,如果人工智能係統被訓練為按照教育水平對簡歷進行排序,並且簡歷代表只能接受高中教育的人群,那麼人工智能係統很可能會按照最高教育水平對簡歷進行排序。這是因為簡歷代表人口,而該人口只能接受高中教育。為了避免這種情況,人工智能係統可以在代表更多樣化人群的簡歷上進行訓練。
數據偏差是數據收集過程中發生的錯誤。它們可能是由抽樣偏差、訪問員偏差或數據輸入錯誤引起的。在分析數據時考慮這些偏差很重要。當挑選人口的子集以表示整體時,發生採樣偏差。例如,如果面試官與三個失業但只有一個就業的人交談,那麼他們對人口的代表會有偏見。當受訪者的反應受到採訪者的外表或行為的影響時,就會出現採訪者偏見。例如,如果面試官問一個關於性別的問題看起來不舒服,受訪者可能會感到不舒服並選擇不回答這個問題。數據輸入錯誤可能是由拼寫錯誤、調查表上的數字誤讀或寫下採訪數據的錯誤造成的。數據偏差是可能導致錯誤結論的常見錯誤。如果你正在分析數據,重要的是要考慮這些偏見。
當你訓練任何類型的模型時,你都是在通過一組示例告訴它有關世界的信息。例如,如果你正在訓練一個模型來識別圖像,你會向它展示一堆貓的圖片和一堆狗的圖片。然後它會學到貓和狗不同的一般規則。當然,也可能有長得像狗的貓和長得像貓的狗。但是通過向模型展示足夠多的例子,它可以學會正確地對貓和狗進行分類。這就是許多機器學習模型的工作方式。
那麼,如果你對人類行為進行分類,這將如何運作?好吧,你可以向你的模型展示一堆可能購買產品的人的例子和一堆不買產品的人的例子。然後它可以學習一個一般規則,即行為與第一組中的人相似的人可能會購買該產品,而第二組中的人則不會。問題是第一組的人可能比第二組的人更有可能購買該產品。這意味著該模型可能會預測行為與第一組中的人相似的人更有可能購買該產品。因此,即使你的模型在技術上是正確的,但由於正確的原因,它可能是錯誤的。
這稱為“過度擬合”你的模型。過度擬合是指模型預測的結果與已知總體不同。這意味著該模型非常擅長尋找已知總體,但不太擅長預測新樣本的結果。它在訓練數據上效果很好,但在現實世界中可能會給出錯誤的答案。
當你使用它來做出重要決定時,這是一個真正的問題。過度擬合的解決方案是增加樣本量,以減少數據偏差。如果你的數據偏差很大,則需要增加樣本量。如果數據偏差較小,則可以減少樣本量。這就是為什麼首先要了解數據偏差如何影響你的模型很重要。你對數據偏差了解得越多,你的AI 模型就會越好。
你怎麼能解決這個問題?
解決此問題的最佳方法是從隨機一組人中獲取數據。這並不總是可能的,因為許多機器學習模型需要訪問大量數據。這意味著你可能無法從隨機人群中獲得訓練模型所需的數據。但是,你可以採取一些措施來嘗試解決此問題。例如,你可以獲取你擁有的數據並消除一些偏見。如果你有購買你產品的人的數據,你可以刪除有關哪些人購買了該產品的信息。這可能有助於減少模型中的偏差
還有其他方法可以減少偏見嗎?
是的。
有一些方法可以減少偏見。例如,你可以使用不同類型的模型。如果你想預測某人是否會購買某種產品,你可以嘗試使用“決策樹”模型。這些使用不同類型的數據來嘗試預測結果。
什麼是決策樹
這可能有助於減少模型中的偏差。你也可以嘗試使用不同類型的數據。例如,如果你使用一個模型來預測一個人是否會購買某種產品,你可以嘗試訓練該模型來預測一個人是否會購買不同的產品。
或者,你可以訓練它預測一個人是否會購買與你實際嘗試銷售的產品不同的產品。這可能會減少模型中的偏差。你也可以嘗試使用“隨機森林”機器學習模型。這是一種機器學習模型,它使用許多不同的決策樹來嘗試預測結果。這可能有助於減少模型中的偏差。
讓我們談談數據清理
數據清理是刪除與你的業務無關的任何記錄的過程。這意味著你要刪除與你嘗試開發的AI 模型無關的任何記錄。例如,如果你正在嘗試開發一個預測質押貸款違約的模型,你可能希望刪除所有與質押貸款無關的記錄。這意味著所有與質押貸款無關的記錄都需要刪除。通過刪除這些記錄,你正在創建一個與你的業務相關的樣本集。你正在刪除不相關的數據並保留相關數據。
這是數據清理中最重要的部分。如果你不刪除不相關的數據,你將擁有一個與你的業務無關的模型。
這可以由你自己完成,也可以聘請數據科學家來清理你的數據。數據清理是構建AI 模型最重要的部分之一。
結論
雖然人工智能是一個非常強大的工具,但如果它的數據有偏見,它也會非常危險。有偏見的人工智能可能會錯誤地識別模式,導致錯誤的決策。它還可能導致有偏見的訓練,這可能導致AI 在未來做出有偏見的決策。
數據偏差是預測未來的主要問題。它們說明了數據的傾斜程度以及預測的準確程度。通過遵循這些最佳實踐,你可以避免AI 中的偏見。
你還看到哪些其他數據偏差影響了你的分析?在下面發表評論並告訴我們。
如果你有興趣閱讀我在DataDriven Investor 上的其他一些博客文章,請閱讀數據治理和人工智能:這對你意味著什麼?
我還寫了一篇博客文章,標題為“工作場所人工智能的倫理考慮”
呼籲採取行動
DDI(DataDriven Investor)最近推出了一個新平台,任何人都可以在該平台上與他們選擇的專家進行一對一的付費會議。 DDI 邀請我加入他們的數據科學、人工智能和機器學習類別的顧問和專家小組。這是我的個人資料; https://app.ddicat.com/experts/yattish-ramhorry。
如果你想與我預約一對一聊天,你可以通過此平台進行。我期待與你進一步合作
#ResponsibleAI #EthicalAI #AIEthics
資訊來源:由0x資訊編譯自DATADRIVENINVESTOR,版權歸作者Yattish Ramhorry所有,未經許可,不得轉載