落實完善數位資料管理機制,
有助於降低AI歧視及資料外洩風險
資訊工業策進會科技法律研究所
2023年07月07日
近年來,科技快速發展,AI(人工智慧)等技術日新月異,在公私部門的應用日益廣泛,而且根據美國資訊科技研究與顧問公司Gartner在2023年5月發布的調查指出,隨著由OpenAI開發的ChatGPT取得成功,更促使各領域對於AI應用的高度重視與投入[1],與此同時,AI歧視及資料外洩等問題,亦成為社會各界的重大關切議題。
壹、事件摘要
目前AI科技發展已牽動全球經濟發展,根據麥肯錫公司近期發布的《生成式人工智慧的經濟潛力:下一個生產力前沿(The next productivity frontier)》研究報告指出,預測生成式AI(Generative AI)有望每年為全球經濟增加2.6兆至4.4兆的經濟價值[2]。同時在美國資訊科技研究與顧問公司Gartner對於超過2500名高階主管的調查中,45%受訪者認為ChatGPT問世,增加其對於AI的投資。而且68%受訪者認為AI的好處大於風險,僅有5%受訪者認為風險大於好處[3]。然而有社會輿論認為AI的判斷依賴訓練資料,將可能複製人類偏見,造成AI歧視問題,而且若程式碼有漏洞或帳戶被盜用時,亦會造成資料外洩問題。
貳、重點說明
首先,關於AI歧視問題,以金融領域為例,近期歐盟委員會副主席Margrethe Vestager強調若AI用於可能影響他人生計的關鍵決策時,如決定是否能取得貸款,應確保申請人不受性別或膚色等歧視[4],同時亦有論者認為若用於訓練AI的歷史資料,本身存有偏見問題,則可能導致系統自動拒絕向邊緣化族群貸款,在無形之中加劇,甚至永久化對於特定種族或性別的歧視[5]。
其次,關於資料外洩問題,資安公司Group-IB指出因目前在預設情況下,ChatGPT將保存使用者查詢及AI回應的訊息紀錄,若帳戶被盜,則可能洩露機敏資訊。據統計在2022年6月至2023年5月間,在亞太地區有近41000個帳戶被盜,而在中東和非洲地區有近25000個帳戶被盜,甚至在歐洲地區也有近17000個帳戶被盜[6]。另外在2023年3月時,ChatGPT除了發生部分用戶能夠檢視他人聊天紀錄標題的問題外,甚至發生個人資料外洩問題,即用戶可能知悉他人的姓名、電子郵件,付款地址,信用卡到期日及號碼末四碼等資料[7]。
參、事件評析
對於AI歧視及資料外洩等問題,應透過落實完善數位資料治理與管理機制,以降低問題發生的風險。首先,在收集訓練資料時,為篩選適合作為模型或演算法基礎的資料,應建立資料評估或審查機制,減少或避免使用有潛在歧視問題的資料,以確保分析結果之精確性。
其次,不論對於訓練資料、分析所得資料或用戶個人資料等,均應落實嚴謹的資料保密措施,避免資料外洩,如必須對於資料進行標示或分類,並依照不同標示或分類,評估及採取適當程度的保密措施。同時應對於資料進行格式轉換,以無法直接開啟的檔案格式進行留存,縱使未來可能不慎發生資料外洩,任意第三人仍難以直接開啟或解析資料內容。甚至在傳送帳戶登入訊息時,亦應採取適當加密傳送機制,避免遭他人竊取,盜取帳戶或個人資料。
財團法人資訊工業策進會科技法律研究所長期致力於促進國家科技法制環境完善,於2021年7月發布「重要數位資料治理暨管理制度規範(Essential Data Governance and Management System,簡稱EDGS)」,完整涵蓋數位資料的生成、保護與維護,以及存證資訊的取得、維護與驗證的流程化管理機制,故對於不同公私部門的AI相關資料,均可參考EDGS,建立系統性數位資料管理機制或強化既有機制。
本文同步刊登於TIPS網站(https://www.tips.org.tw)
[1]Gartner, Gartner Poll Finds 45% of Executives Say ChatGPT Has Prompted an Increase in AI Investment (May 3, 2023), https://www.gartner.com/en/newsroom/press-releases/2023-05-03-gartner-poll-finds-45-percent-of-executives-say-chatgpt-has-prompted-an-increase-in-ai-investment (last visited June 30, 2023).
[2]McKinsey, The economic potential of generative AI: The next productivity frontier (June 14, 2023), https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-AI-the-next-productivity-frontier#introduction (last visited June 30, 2023).
[3]Gartner, supra note 1.
[4]Zoe Kleinman, Philippa Wain & Ashleigh Swan, Using AI for loans and mortgages is big risk, warns EU boss (June 14, 2023), https://www.bbc.com/news/technology-65881389 (last visited June 30, 2023).
[5]Ryan Browne & MacKenzie Sigalos, A.I. has a discrimination problem. In banking, the consequences can be severe (June 23, 2023), https://www.cnbc.com/2023/06/23/ai-has-a-discrimination-problem-in-banking-that-can-be-devastating.html (last visited June 30, 2023).
[6]Group-IB, Group-IB Discovers 100K+ Compromised ChatGPT Accounts on Dark Web Marketplaces; Asia-Pacific region tops the list (June 20, 2023), https://www.group-ib.com/media-center/press-releases/stealers-chatgpt-credentials/ (last visited June 30, 2023).
[7]OpenAI, March 20 ChatGPT outage: Here’s what happened (Mar. 24, 2023),https://openai.com/blog/march-20-chatgpt-outage (last visited June 30, 2023).
E-bay集團旗下的線上付款服務公司PayPal的代表律師Joseph E. Sullivan 於三月二十七日在倫敦舉辦的第五屆國際網路犯罪討論會議( International E-Crime Congress )中,提案要求電子信箱服務提供業者透過封鎖未附有電子簽章(Digital Signature)信件之方式,減少網路釣魚騙局(Phishing)的產生。該提案主要目的在透過電子信箱服務提供業者過濾垃圾郵件篩選系統( Spam Filters),以防堵看起來幾可亂真的網路釣魚郵件。雖然參與該國際網路犯罪討論會議的業者及政府機構並未對該提案達成共識,但是PayPal公司已和Google公司旗下的電子信箱服務Gmail達成協議,加強過濾垃圾郵件的篩選。 PayPal 是最常被詐騙集團利用偽裝郵件(Spoofing Emails)的受害公司之一,目前詐騙集團以偽裝公司郵件的技術進行網路釣魚,以騙取個人資料或帳號密碼來謀利。Paypal目前已使用數項電子簽章的安全技術,其中包括Yahoo!公司所研發的網域認證鑰匙(DomainKeys),該技術能有效地判斷寄件者的網域(Domain)是否為偽造及寄出信件是否來自偽造的網域。 目前網路釣魚的網站如雨後春筍般地出現,根據一份由國際業者及政府機構聯合提出之「反網路釣魚世界組織」(Anti-Phising World Group)報告指出,統計至今年一月份為止,全世界的詐騙網站已高達兩萬九千九百三十個。故PayPal特別對反制網路詐騙集團利用即可亂真的網路釣魚郵件,將上述提案於國際會議中提出討論 。
日本發布Startup交易習慣之現況調查報告最終版,統整新創事業實務上遭遇不公平競爭行為之態樣日本公平交易委員會於2020年11月27日發布「Startup交易習慣之現況調查報告最終版」(スタートアップの取引慣行に関する実態調査について最終報告),主旨為揭露其國內新創事業於交易市場遭遇不公平競爭行為的調查結果。本報告的作成目的,係基於新創事業發展具備推動創新、活絡國內經濟之潛力,故針對各類型新創事業在參與市場交易時,有無因其與相對人間的不對等地位(因需仰賴相對人提供資金或資源),遭遇不公平競爭的情況進行調查。同時,本報告所公布的調查結果,將會作為未來訂定新創事業與合作廠商間契約指引的參考依據,以圖從制度面改善新創事業參與市場的競爭環境。 本報告書所調查的交易態樣,聚焦於容易出現不公平競爭行為的契約或競爭關係,並分別整理主要的行為態樣如下:(1)新創事業與合作廠商間之契約:要求新創事業揭露營業秘密、約定對合作廠商有利的保密協議條款、無償進行概念驗證(Proof of Concept)、無償提供授權、於共同研究契約中約定智財權僅歸屬合作廠商、延遲給付報酬予新創事業等;(2)新創事業與出資者間之契約:要求新創事業揭露營業秘密、負擔出資者外包業務予第三人之費用、購買不必要的商品或服務、提供片面優惠待遇、限制新創事業的交易對象等;(3)新創事業與其他競爭廠商間之關係:競爭廠商要求交易相對人不得向與其存在競爭關係之新創事業買入競爭性商品;競爭廠商針對特定新創事業設定較高的商品售價,而事實上拒絕與其進行交易等。同時,依據報告書,在與合作廠商或出資者進行交易、或訂定契約的過程中,約有17%的新創事業表示曾遭遇「無法接受的行為」(納得できない行為),且當中有約八成的新創事業妥協接受。其中,若為銷售額未滿5000萬日圓、且公司未配有法務人員的新創事業,遇到無法接受行為的事業家數為銷售額5000萬日圓以上、且公司有法務人員之新創事業的2.5倍。
歐盟執委會擬改革現行專利訴訟制度,並希望能減省歐洲境內中小企業營運成本為求能妥善管理現暨有之歐洲專利與健全歐洲共同體專利制度,歐盟執委會(Commission)正致力於尋求各成員國同意,欲滙集境內能量,來建、整出一套「單一化」專利訴訟制度(Unified Patent Litigation System;簡稱UPLS),以解決境內智財爭議與相關衍生問題,來達到『鼓勵私人發明』及『刺激歐洲境內中小型企業 (Small & Medium Enterprises;簡稱SMEs)持續成長』等目標」。 目前,就已取得歐洲專利局(European Patent Office)所核發專利之專利權人而言,其雖可逐一於歐盟各成員國家中,利用該國專利訴訟程序來保障其自身之發明;然,由於利用不同成員國家之司法系統興訟,甚可能因各類商業習慣或其他種種因素,而致生不同之審判結果;因此,於現行歐洲專利訴訟制度下,除時間與成本外,業者亦須面對司法裁判上之高度不確定性風險。一位負責國際市場暨服務事務官員Charlie McCreevy指出:「已有許多業者表示,歐洲現行之專利訴訟制度,實相當地複雜且繁瑣;且於訴訟進行過程中,除須繳納許多費用外;至取得判決前,其所耗費之時間,亦相當冗長」。 有鑑於此,執委會正擬儘快協調各會員國並統整出一套單一化之專利訴訟制度,以提升訴訟結果之可預見性(Predictability)並減輕訴訟成本。大體而言,該項UPLS制度,應可為歐洲專利權人帶來如後數項利益:(1)提升專利訴訟結果之法律上確定性、(2)減輕訴訟成本與(3)促進專利訴訟制度之商業性近用等;而一位執委會官員補充:「事實上,建置單一化專利法院與訴訟系統,其目的,無非是欲借強化解決智財爭議機制之方法,來達到『鼓勵私人發明』及『刺激歐洲境內中小型企業持續成長』等目標」。 最後,根據一份由德國慕尼黑大學學者Dietmar Harhoff所提出之分析報告顯示,倘若能透過該項措施來避免「重複專利侵害訴訟」或「訴訟撤回」等問題,估計每年將可為業者省下高達1億4千8百萬至2億8千9百萬歐元之專利訴訟費用。
美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。 美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。 與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。 但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。