落實完善數位資料管理機制,
有助於降低AI歧視及資料外洩風險
資訊工業策進會科技法律研究所
2023年07月07日
近年來,科技快速發展,AI(人工智慧)等技術日新月異,在公私部門的應用日益廣泛,而且根據美國資訊科技研究與顧問公司Gartner在2023年5月發布的調查指出,隨著由OpenAI開發的ChatGPT取得成功,更促使各領域對於AI應用的高度重視與投入[1],與此同時,AI歧視及資料外洩等問題,亦成為社會各界的重大關切議題。
壹、事件摘要
目前AI科技發展已牽動全球經濟發展,根據麥肯錫公司近期發布的《生成式人工智慧的經濟潛力:下一個生產力前沿(The next productivity frontier)》研究報告指出,預測生成式AI(Generative AI)有望每年為全球經濟增加2.6兆至4.4兆的經濟價值[2]。同時在美國資訊科技研究與顧問公司Gartner對於超過2500名高階主管的調查中,45%受訪者認為ChatGPT問世,增加其對於AI的投資。而且68%受訪者認為AI的好處大於風險,僅有5%受訪者認為風險大於好處[3]。然而有社會輿論認為AI的判斷依賴訓練資料,將可能複製人類偏見,造成AI歧視問題,而且若程式碼有漏洞或帳戶被盜用時,亦會造成資料外洩問題。
貳、重點說明
首先,關於AI歧視問題,以金融領域為例,近期歐盟委員會副主席Margrethe Vestager強調若AI用於可能影響他人生計的關鍵決策時,如決定是否能取得貸款,應確保申請人不受性別或膚色等歧視[4],同時亦有論者認為若用於訓練AI的歷史資料,本身存有偏見問題,則可能導致系統自動拒絕向邊緣化族群貸款,在無形之中加劇,甚至永久化對於特定種族或性別的歧視[5]。
其次,關於資料外洩問題,資安公司Group-IB指出因目前在預設情況下,ChatGPT將保存使用者查詢及AI回應的訊息紀錄,若帳戶被盜,則可能洩露機敏資訊。據統計在2022年6月至2023年5月間,在亞太地區有近41000個帳戶被盜,而在中東和非洲地區有近25000個帳戶被盜,甚至在歐洲地區也有近17000個帳戶被盜[6]。另外在2023年3月時,ChatGPT除了發生部分用戶能夠檢視他人聊天紀錄標題的問題外,甚至發生個人資料外洩問題,即用戶可能知悉他人的姓名、電子郵件,付款地址,信用卡到期日及號碼末四碼等資料[7]。
參、事件評析
對於AI歧視及資料外洩等問題,應透過落實完善數位資料治理與管理機制,以降低問題發生的風險。首先,在收集訓練資料時,為篩選適合作為模型或演算法基礎的資料,應建立資料評估或審查機制,減少或避免使用有潛在歧視問題的資料,以確保分析結果之精確性。
其次,不論對於訓練資料、分析所得資料或用戶個人資料等,均應落實嚴謹的資料保密措施,避免資料外洩,如必須對於資料進行標示或分類,並依照不同標示或分類,評估及採取適當程度的保密措施。同時應對於資料進行格式轉換,以無法直接開啟的檔案格式進行留存,縱使未來可能不慎發生資料外洩,任意第三人仍難以直接開啟或解析資料內容。甚至在傳送帳戶登入訊息時,亦應採取適當加密傳送機制,避免遭他人竊取,盜取帳戶或個人資料。
財團法人資訊工業策進會科技法律研究所長期致力於促進國家科技法制環境完善,於2021年7月發布「重要數位資料治理暨管理制度規範(Essential Data Governance and Management System,簡稱EDGS)」,完整涵蓋數位資料的生成、保護與維護,以及存證資訊的取得、維護與驗證的流程化管理機制,故對於不同公私部門的AI相關資料,均可參考EDGS,建立系統性數位資料管理機制或強化既有機制。
本文同步刊登於TIPS網站(https://www.tips.org.tw)
[1]Gartner, Gartner Poll Finds 45% of Executives Say ChatGPT Has Prompted an Increase in AI Investment (May 3, 2023), https://www.gartner.com/en/newsroom/press-releases/2023-05-03-gartner-poll-finds-45-percent-of-executives-say-chatgpt-has-prompted-an-increase-in-ai-investment (last visited June 30, 2023).
[2]McKinsey, The economic potential of generative AI: The next productivity frontier (June 14, 2023), https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-AI-the-next-productivity-frontier#introduction (last visited June 30, 2023).
[3]Gartner, supra note 1.
[4]Zoe Kleinman, Philippa Wain & Ashleigh Swan, Using AI for loans and mortgages is big risk, warns EU boss (June 14, 2023), https://www.bbc.com/news/technology-65881389 (last visited June 30, 2023).
[5]Ryan Browne & MacKenzie Sigalos, A.I. has a discrimination problem. In banking, the consequences can be severe (June 23, 2023), https://www.cnbc.com/2023/06/23/ai-has-a-discrimination-problem-in-banking-that-can-be-devastating.html (last visited June 30, 2023).
[6]Group-IB, Group-IB Discovers 100K+ Compromised ChatGPT Accounts on Dark Web Marketplaces; Asia-Pacific region tops the list (June 20, 2023), https://www.group-ib.com/media-center/press-releases/stealers-chatgpt-credentials/ (last visited June 30, 2023).
[7]OpenAI, March 20 ChatGPT outage: Here’s what happened (Mar. 24, 2023),https://openai.com/blog/march-20-chatgpt-outage (last visited June 30, 2023).
美國國家標準暨技術研究院(National Institute of Standard and Technology, NIST)2024年7月26日發布「人工智慧風險管理框架:生成式AI概況」(Artificial Intelligence Risk Management Framework: Generative Artificial Intelligence Profile),補充2023年1月發布的AI風險管理框架,協助組織識別生成式AI(Generative AI, GAI)可能引發的風險,並提出風險管理行動。GAI特有或加劇的12項主要風險包括: 1.化學、生物、放射性物質或核武器(chemical, biological, radiological and nuclear materials and agents, CBRN)之資訊或能力:GAI可能使惡意行為者更容易取得CBRN相關資訊、知識、材料或技術,以設計、開發、生產、使用CBRN。 2.虛假內容:GAI在回應輸入內容時,常自信地呈現錯誤或虛假內容,包括在同一情境下產出自相矛盾的內容。 3.危險、暴力或仇恨內容:GAI比其他技術能更輕易產生大規模煽動性、激進或威脅性內容,或美化暴力內容。 4.資料隱私:GAI訓練時需要大量資料,包括個人資料,可能產生透明度、個人資料自主權、資料違法目的外利用等風險。 5.環境影響:訓練、維護和運行GAI系統需使用大量能源而影響碳排放。 6.偏見或同質化(homogenization):GAI可能加劇對個人、群體或社會的偏見或刻板印象,例如要求生成醫生、律師或CEO圖像時,產出女性、少數族群或身障人士的比例較低。 7.人機互動:可能涉及系統與人類互動不良的風險,包括過度依賴GAI系統,或誤認GAI內容品質比其他來源內容品質更佳。 8.資訊完整性:GAI可能無意間擴大傳播虛假、不準確或誤導性內容,從而破壞資訊完整性,降低公眾對真實或有效資訊的信任。 9.資訊安全:可能降低攻擊門檻、更輕易實現自動化攻擊,或幫助發現新的資安風險,擴大可攻擊範圍。 10.智慧財產權:若GAI訓練資料中含有受著作權保護的資料,可能導致侵權,或在未經授權的情況下使用或假冒個人身分、肖像或聲音。 11.淫穢、貶低或虐待性內容:可能導致非法或非自願性的成人私密影像或兒童性虐待素材增加,進而造成隱私、心理、情感,甚至身體上傷害。 12.價值鏈和組件整合(component integration):購買資料集、訓練模型和軟體庫等第三方零組件時,若零組件未從適當途徑取得或未經妥善審查,可能導致下游使用者資訊不透明或難以問責。 為解決前述12項風險,本報告亦從「治理、映射、量測、管理」四大面向提出約200項行動建議,期能有助組織緩解並降低GAI的潛在危害。
歐盟提出智慧醫院防禦網路攻擊建議歐盟網路與資訊安全局於2016年11月(ENISA)提出醫院導入智慧聯網技術因應資訊安全之研究建議,此研究說明智慧醫院之ICT應用乃以風險評估為基礎,聚焦於相關威脅與弱點、分析網路攻擊情節,同時建立使用準則供醫院遵守。由於遠端病患照護之需求,將使醫院轉型,運用智慧解決機制之際,仍須考量安全防護問題,且醫院可能成為下一階段網路攻擊之目標,醫院導入智慧聯元件的同時,將增加攻擊媒介使醫院面對網路攻擊更加脆弱,因此,報告建議如下: 1.醫療照護機構應提供特定資訊安全防護,要求智慧聯網元件符合最佳安全措施。 2.智慧醫院應確認醫院內之物件及其如何進行網路連結,並根據所得資料採取相應措施。 3.設備製造商應將安全防護納入現有資安系統,並在設計系統與服務之初邀請健康照護機構參與。 在我國部分,2016年9月行政院生技產業策略諮議委員會議中即提到,強調將建立智慧健康生活創新服務模式,提供民眾必要健康資訊及更友善支持環境,同時結合ICT與精密機械及材料,發展智慧健康服務的模式。2016年11月,行政院推動「生醫產業創新推動方案」,藉由調適法規等方式統整醫療體系與運用ICT技術及異業整合,其中在智慧聯網應用下之資訊安全防護議題實屬重要。
美國第七巡迴上訴法院於Wallace v. IBM, Red Hat, and Novell 一案認定GPL或自由軟體授權模式不違反聯邦反托拉斯法美國第七巡迴上訴法院( U.S. Court of Appeals (7thCir) )最近就 Wallace v. IBM, Red Hat, and Novell 一案做出判決,本案爭執重點在於 GPL 授權條款與反托拉斯法之間的關係,美國第七巡迴上訴法院認為 GPL 授權條款並不違反反拖拉斯法,法院也同時明確表示,一般而言自由軟體無須擔心會違反反托拉斯法。 本案上訴人 Daniel Wallace 係程式設計師,其欲販售由 BSD ( Berkeley Software Distribution )所開發出來的競爭軟體給各級學校。 BSD 是 Linux 的衍生版本,而 Linux 作業系統則是屬於自由軟體的一種,想要使用 Linux 的人就必須遵守 GPL 授權條款。依 GPL 授權條款規定,不論 Linux 或 Linux 之衍生著作均不得收取授權費用,上訴人因此指控 IBM 、 Red Hat 、 Novell 與自由軟體協會涉嫌共謀將軟體價格設定在零,涉嫌以掠奪性定價( predatory pricing claim )方式削減作業系統市場之競爭,已違反反托拉斯法。 法院認為,本案並無法主張掠奪性定價,蓋被上訴人 IBM 、 Red Hat 及 Novell 並無法因此而取得獨佔價格,其授權價格之所以為零乃是遵照 GPL 授權條款的結果,且消費者並未因此受到損害。其次,法院也指出,著作權法通常對他人之改作權加以限制,其目的是為了收取授權金,不過著作權法人亦可用以確保自由軟體維持零授權金,因此任何嘗試想要販售自由軟體之衍生著作者,將會違反著作權法,即令改作人不同意接受 GPL 授權條款的約束。
美政府將加強對抗盜版與仿冒美國歐巴馬政府在6月22日公布一份範圍廣泛的智慧財產執法聯合策略計畫(Joint Strategic Plan on Intellectual Property Enforcement),目的是希望協同聯邦各部門增強有關智慧財產權的執法力度,以打擊美國境內與境外盜版與仿冒日益嚴重的問題。 智慧財產執法協調員(Intellectual Property Enforcement Coordinator, IPEC)Victoria Espinel在報告前言指出,打擊仿冒和盜版需要聯邦強而有力的反應;作為全球創新領導者的美國已因為有些國家未能依照法律規定或國際條約來執法或採取不利美國之產業政策而被傷害。此計畫提出33個執法策略行動項目(enforcement strategy action items)來加強智慧財產執法,包括增加執法政策透明度以及美國境內、外執法行動的分享與報導、確保政府各層級間的執法效能與協調、加強美國智慧財產權的國際執法、確保安全的供應鏈以杜絕侵權產品輸入美國等。 舉例而言,該計畫非常關注外國網站線上侵權(online piracy)的問題,認為網際網路不應成為犯罪行為的工具,強調美國政府必須和外國政府、國際組織以及私部門共同合作對抗,並鼓勵內容擁有者(content owners)、ISP業者、廣告經紀商(advertising brokers)、付款處理業者(payment processors)和搜尋引擎業者在尊重合法競爭、言論自由與個人穩私之下,彼此合作謀求實際解決方案。根據報導,盜版已造成美國的影視業年度損失205億美元產值、工作者年度短少55億美元的收入、也減少了原本可帶來多於14萬個的工作職缺,結果使美國年度稅收短少了8.37億美元。