落實完善數位資料管理機制,
有助於降低AI歧視及資料外洩風險
資訊工業策進會科技法律研究所
2023年07月07日
近年來,科技快速發展,AI(人工智慧)等技術日新月異,在公私部門的應用日益廣泛,而且根據美國資訊科技研究與顧問公司Gartner在2023年5月發布的調查指出,隨著由OpenAI開發的ChatGPT取得成功,更促使各領域對於AI應用的高度重視與投入[1],與此同時,AI歧視及資料外洩等問題,亦成為社會各界的重大關切議題。
壹、事件摘要
目前AI科技發展已牽動全球經濟發展,根據麥肯錫公司近期發布的《生成式人工智慧的經濟潛力:下一個生產力前沿(The next productivity frontier)》研究報告指出,預測生成式AI(Generative AI)有望每年為全球經濟增加2.6兆至4.4兆的經濟價值[2]。同時在美國資訊科技研究與顧問公司Gartner對於超過2500名高階主管的調查中,45%受訪者認為ChatGPT問世,增加其對於AI的投資。而且68%受訪者認為AI的好處大於風險,僅有5%受訪者認為風險大於好處[3]。然而有社會輿論認為AI的判斷依賴訓練資料,將可能複製人類偏見,造成AI歧視問題,而且若程式碼有漏洞或帳戶被盜用時,亦會造成資料外洩問題。
貳、重點說明
首先,關於AI歧視問題,以金融領域為例,近期歐盟委員會副主席Margrethe Vestager強調若AI用於可能影響他人生計的關鍵決策時,如決定是否能取得貸款,應確保申請人不受性別或膚色等歧視[4],同時亦有論者認為若用於訓練AI的歷史資料,本身存有偏見問題,則可能導致系統自動拒絕向邊緣化族群貸款,在無形之中加劇,甚至永久化對於特定種族或性別的歧視[5]。
其次,關於資料外洩問題,資安公司Group-IB指出因目前在預設情況下,ChatGPT將保存使用者查詢及AI回應的訊息紀錄,若帳戶被盜,則可能洩露機敏資訊。據統計在2022年6月至2023年5月間,在亞太地區有近41000個帳戶被盜,而在中東和非洲地區有近25000個帳戶被盜,甚至在歐洲地區也有近17000個帳戶被盜[6]。另外在2023年3月時,ChatGPT除了發生部分用戶能夠檢視他人聊天紀錄標題的問題外,甚至發生個人資料外洩問題,即用戶可能知悉他人的姓名、電子郵件,付款地址,信用卡到期日及號碼末四碼等資料[7]。
參、事件評析
對於AI歧視及資料外洩等問題,應透過落實完善數位資料治理與管理機制,以降低問題發生的風險。首先,在收集訓練資料時,為篩選適合作為模型或演算法基礎的資料,應建立資料評估或審查機制,減少或避免使用有潛在歧視問題的資料,以確保分析結果之精確性。
其次,不論對於訓練資料、分析所得資料或用戶個人資料等,均應落實嚴謹的資料保密措施,避免資料外洩,如必須對於資料進行標示或分類,並依照不同標示或分類,評估及採取適當程度的保密措施。同時應對於資料進行格式轉換,以無法直接開啟的檔案格式進行留存,縱使未來可能不慎發生資料外洩,任意第三人仍難以直接開啟或解析資料內容。甚至在傳送帳戶登入訊息時,亦應採取適當加密傳送機制,避免遭他人竊取,盜取帳戶或個人資料。
財團法人資訊工業策進會科技法律研究所長期致力於促進國家科技法制環境完善,於2021年7月發布「重要數位資料治理暨管理制度規範(Essential Data Governance and Management System,簡稱EDGS)」,完整涵蓋數位資料的生成、保護與維護,以及存證資訊的取得、維護與驗證的流程化管理機制,故對於不同公私部門的AI相關資料,均可參考EDGS,建立系統性數位資料管理機制或強化既有機制。
本文同步刊登於TIPS網站(https://www.tips.org.tw)
[1]Gartner, Gartner Poll Finds 45% of Executives Say ChatGPT Has Prompted an Increase in AI Investment (May 3, 2023), https://www.gartner.com/en/newsroom/press-releases/2023-05-03-gartner-poll-finds-45-percent-of-executives-say-chatgpt-has-prompted-an-increase-in-ai-investment (last visited June 30, 2023).
[2]McKinsey, The economic potential of generative AI: The next productivity frontier (June 14, 2023), https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-AI-the-next-productivity-frontier#introduction (last visited June 30, 2023).
[3]Gartner, supra note 1.
[4]Zoe Kleinman, Philippa Wain & Ashleigh Swan, Using AI for loans and mortgages is big risk, warns EU boss (June 14, 2023), https://www.bbc.com/news/technology-65881389 (last visited June 30, 2023).
[5]Ryan Browne & MacKenzie Sigalos, A.I. has a discrimination problem. In banking, the consequences can be severe (June 23, 2023), https://www.cnbc.com/2023/06/23/ai-has-a-discrimination-problem-in-banking-that-can-be-devastating.html (last visited June 30, 2023).
[6]Group-IB, Group-IB Discovers 100K+ Compromised ChatGPT Accounts on Dark Web Marketplaces; Asia-Pacific region tops the list (June 20, 2023), https://www.group-ib.com/media-center/press-releases/stealers-chatgpt-credentials/ (last visited June 30, 2023).
[7]OpenAI, March 20 ChatGPT outage: Here’s what happened (Mar. 24, 2023),https://openai.com/blog/march-20-chatgpt-outage (last visited June 30, 2023).
英國資訊委員辦公室(Information Commissioner’s Office, ICO)於2020年10月21日發布《資料主體近用權指引》(Guidance of Right of access),針對資料主體行使資料近用權之請求(Data Subject Access Request, DSAR),受請求之機構應如何進行識別判斷、簡化處理方式,以及特殊例外情況等法遵重點提供指導方針,並進行實例說明解析,以幫助受請求之機構在面臨資料主體之近用權請求時能快速且有效的處理。 英國「個人資料保護法」(The Data Protection Act 2018)依據歐盟「一般資料保護規則」(GDPR)於2018年重新修訂,其中資料近用權更是對於資料主體相當重要的基本權利,進而影響受請求之機構必須了解如何有效率的處理資料近用權之請求,並確實履行其在法規上所要求的保護義務,主要分為三點: 在資料主體確認其資料近用權所欲請求的範圍之前,受請求之機構依法應回覆時限應予以暫停,以利受請求之機構能有更充裕完整的時間釐清及回應資料主體之近用權請求。 為了避免受請求之機構耗費大量時間判斷何謂「明顯過度之請求」(manifestly excessive request),該指引提供相關定義說明及判別標準。 針對「明顯過度之請求」收取處理費用所包含的項目,例如受請求之機構處理請求所增加人力行政成本,在受請求之機構收取處理費用時可將其納入斟酌。
英國數位、文化、媒體暨體育部發布資料道德與創新中心公眾諮詢英國數位、文化、媒體暨體育部(Department for Digital, Culture Media & Sport, DCMS)於2018年6月13日發布有關資料道德與創新中心(Centre for Data Ethics and Innovation)之公眾諮詢,本次諮詢將於2018年9月5日截止。 在資料使用與人工智慧皆快速發展且對生活模式產生重大改變之背景下,英國政府認為企業、公民以及公部門對於資料及人工智慧的安全及道德創新都需要有明確規範以資遵循,以因應該領域快速發展而生的問題。為此,英國政府欲新建一個資料倫理與創新中心,該中心本身並不會對於資料及人工智慧的使用作出規範,主要係通過吸收各界的經驗及見解,統整這些經驗或見解並轉化為對政府現行監管方面缺陷之建議,該中心具有獨立諮詢之地位(independent advisory status),提供政府對資料及人工智慧相關議題之治理建議。 諮詢文件內指出中心作用及目標旨在提供政府政策指導,並與監管機構、研究機構、公民社會密切合作,以制定正確的政策措施;對於中心的活動及產出,政府認為中心可進行對於資料及人工智慧的分析及預測,並擬定最佳實務作法(如開發有效及合乎道德的資料及AI使用框架),進而向政府提供有助資料及人工智慧之安全及道德創新發展的相關建議。 本次公眾諮詢主要針對資料道德與創新中心之營運方式及重點工作領域徵詢意見,所提出問題大致上包括是否同意中心目前的職責及目標?中心該如何與其他機構進行合作?中心應採取哪些行動?是否同意目前建議的行動類型?中心需要哪些法定權力?中心如何向政府提交建議?是否應將中心提交之建議向大眾公開? 我國行政院於今(2018)年1月18日提出為期4年之「台灣AI行動計畫(2018-2021)」,計畫內容之五大重點為:(1)AI領航推動;(2)AI人才衝刺;(3)建構國際AI創新樞紐;(4)創新法規、實證場域與資料開放;(5)產業AI化,其中,第4點細部內容提及將建立高資安防護及親善介面之資料開放與介接平台,顯見我國政府正全力推動AI發展,亦對資料開放相關議題頗為重視。是以,英國資料道德與創新中心之發展在未來我國推動AI普及與產業AI化之進程上,似可提供我國參考方向,以健全AI發展之法制環境。
加拿大公布新的企業個資保護自評工具加拿大聯邦政府與亞伯達省(Alberta)及英屬哥倫比亞省(British Columbia)的隱私委員會針對一般企業,聯合推出新的個人資料保護自我評量線上工具,該線上工具之內容包括風險管理、政策、記錄管理、人力資源安全、物理安全、系統安全、網路安全、無線、資料庫安全、作業系統、電子郵件和傳真安全、資料完整性和保護、存取控制、信息系統獲取,開發和維護、事件管理、業務連續性規劃、承諾等項目之評估測驗。 聯合制定該線上自我評量工具的隱私委員辦公室表示,該線上工具可用於任何私人組織,特別是小型及中小型企業,而且新的線上工具是針對企業為一全面性的評估,並且該評估的內容十分鉅細靡遺。另外,為了提供使用者於使用該線上工具時的靈活性,故使用者亦可以將重點放在最切合自己的企業的部分,亦即僅選擇其中一項或數項為自我評估的內容即可。 又,該線上自我評量工具會將使用者的自我評估和分析過程的結果做成結論,而使用者可以獲得該分析得出之結論,並將作成之結論用來有系統地為評估組織本身的個人資料保護安全性,並藉以提高個人資料保護的安全。
歐盟執委會發布關於歐洲境內資料流監控之新研究歐盟執委會(The EU Commission)於2022年2月3日發布了一項研究,其繪製並預估歐盟27個成員國以及冰島、挪威、瑞士和英國等國家彼此之間的主要雲端基礎設施的資料流量。該研究概述了各級產業、位置、企業規模和雲端服務類型的雲端資料流入和流出的流量和類型。政策、決策者、商業領袖與公共行政部門可以將其作為參考,以支持對未來貿易協定、工業決策和雲端投資的決策。 在歐盟的歐洲資料戰略中,認識到獲取有關資料流的經濟情報的戰略重要性,因此提出了資料流戰略分析框架的發展。為了實現這一關鍵行動,歐盟執委會開展了上述關於繪製資料流的研究,首次開發和測試了一種全新、自我維持與可複製的方法,從而產生了資料流可視化工具,用於測量、映射和分析歐洲31個國家與地區的各級產業、地理和企業規模的雲端資料流。而該資料流可視化工具中顯示的資料預計將每年更新一次。使用的資料收集來源從官方統計資料等主要來源到調查和訪談等次要來源。 該工具得以讓歐盟執委會: 一、繪製和估計歐盟27個成員國(即歐盟內部資料流)和冰島、挪威、瑞士和英國(即歐盟外資料流)的雲端計算領域主要資料流的數量 二、預測至2030年的資料流出 三、分析各產業、公司規模和雲端服務類型的資料流量 該研究顯示2020年最大的資料流來自醫療衛生產業,而德國的資料流入量最大。該報告還估計,到2030年,來自歐洲企業的資料流量將是2020年的15倍。 作為資料流市場關鍵層面之一,透過進一步調查資料趨勢,將協同即將出現的資訊法案打造一個更加生動、動態和流動的雲端市場。