落實完善數位資料管理機制,有助於降低AI歧視及資料外洩風險

落實完善數位資料管理機制,
有助於降低AI歧視及資料外洩風險

資訊工業策進會科技法律研究所
2023年07月07日

近年來,科技快速發展,AI(人工智慧)等技術日新月異,在公私部門的應用日益廣泛,而且根據美國資訊科技研究與顧問公司Gartner在2023年5月發布的調查指出,隨著由OpenAI開發的ChatGPT取得成功,更促使各領域對於AI應用的高度重視與投入[1],與此同時,AI歧視及資料外洩等問題,亦成為社會各界的重大關切議題。

壹、事件摘要

目前AI科技發展已牽動全球經濟發展,根據麥肯錫公司近期發布的《生成式人工智慧的經濟潛力:下一個生產力前沿(The next productivity frontier)》研究報告指出,預測生成式AI(Generative AI)有望每年為全球經濟增加2.6兆至4.4兆的經濟價值[2]。同時在美國資訊科技研究與顧問公司Gartner對於超過2500名高階主管的調查中,45%受訪者認為ChatGPT問世,增加其對於AI的投資。而且68%受訪者認為AI的好處大於風險,僅有5%受訪者認為風險大於好處[3]。然而有社會輿論認為AI的判斷依賴訓練資料,將可能複製人類偏見,造成AI歧視問題,而且若程式碼有漏洞或帳戶被盜用時,亦會造成資料外洩問題。

貳、重點說明

首先,關於AI歧視問題,以金融領域為例,近期歐盟委員會副主席Margrethe Vestager強調若AI用於可能影響他人生計的關鍵決策時,如決定是否能取得貸款,應確保申請人不受性別或膚色等歧視[4],同時亦有論者認為若用於訓練AI的歷史資料,本身存有偏見問題,則可能導致系統自動拒絕向邊緣化族群貸款,在無形之中加劇,甚至永久化對於特定種族或性別的歧視[5]

其次,關於資料外洩問題,資安公司Group-IB指出因目前在預設情況下,ChatGPT將保存使用者查詢及AI回應的訊息紀錄,若帳戶被盜,則可能洩露機敏資訊。據統計在2022年6月至2023年5月間,在亞太地區有近41000個帳戶被盜,而在中東和非洲地區有近25000個帳戶被盜,甚至在歐洲地區也有近17000個帳戶被盜[6]。另外在2023年3月時,ChatGPT除了發生部分用戶能夠檢視他人聊天紀錄標題的問題外,甚至發生個人資料外洩問題,即用戶可能知悉他人的姓名、電子郵件,付款地址,信用卡到期日及號碼末四碼等資料[7]

參、事件評析

對於AI歧視及資料外洩等問題,應透過落實完善數位資料治理與管理機制,以降低問題發生的風險。首先,在收集訓練資料時,為篩選適合作為模型或演算法基礎的資料,應建立資料評估或審查機制,減少或避免使用有潛在歧視問題的資料,以確保分析結果之精確性。

其次,不論對於訓練資料、分析所得資料或用戶個人資料等,均應落實嚴謹的資料保密措施,避免資料外洩,如必須對於資料進行標示或分類,並依照不同標示或分類,評估及採取適當程度的保密措施。同時應對於資料進行格式轉換,以無法直接開啟的檔案格式進行留存,縱使未來可能不慎發生資料外洩,任意第三人仍難以直接開啟或解析資料內容。甚至在傳送帳戶登入訊息時,亦應採取適當加密傳送機制,避免遭他人竊取,盜取帳戶或個人資料。

財團法人資訊工業策進會科技法律研究所長期致力於促進國家科技法制環境完善,於2021年7月發布「重要數位資料治理暨管理制度規範(Essential Data Governance and Management System,簡稱EDGS)」,完整涵蓋數位資料的生成、保護與維護,以及存證資訊的取得、維護與驗證的流程化管理機制,故對於不同公私部門的AI相關資料,均可參考EDGS,建立系統性數位資料管理機制或強化既有機制。

本文同步刊登於TIPS網站(https://www.tips.org.tw

[1]Gartner, Gartner Poll Finds 45% of Executives Say ChatGPT Has Prompted an Increase in AI Investment (May 3, 2023), https://www.gartner.com/en/newsroom/press-releases/2023-05-03-gartner-poll-finds-45-percent-of-executives-say-chatgpt-has-prompted-an-increase-in-ai-investment (last visited June 30, 2023).

[2]McKinsey, The economic potential of generative AI: The next productivity frontier (June 14, 2023), https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-AI-the-next-productivity-frontier#introduction (last visited June 30, 2023).

[3]Gartner, supra note 1.

[4]Zoe Kleinman, Philippa Wain & Ashleigh Swan, Using AI for loans and mortgages is big risk, warns EU boss (June 14, 2023), https://www.bbc.com/news/technology-65881389 (last visited June 30, 2023).

[5]Ryan Browne & MacKenzie Sigalos, A.I. has a discrimination problem. In banking, the consequences can be severe (June 23, 2023), https://www.cnbc.com/2023/06/23/ai-has-a-discrimination-problem-in-banking-that-can-be-devastating.html (last visited June 30, 2023).

[6]Group-IB, Group-IB Discovers 100K+ Compromised ChatGPT Accounts on Dark Web Marketplaces; Asia-Pacific region tops the list (June 20, 2023), https://www.group-ib.com/media-center/press-releases/stealers-chatgpt-credentials/ (last visited June 30, 2023).

[7]OpenAI, March 20 ChatGPT outage: Here’s what happened (Mar. 24, 2023),https://openai.com/blog/march-20-chatgpt-outage (last visited June 30, 2023).

你可能會想參加
※ 落實完善數位資料管理機制,有助於降低AI歧視及資料外洩風險, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=9013&no=66&tp=1 (最後瀏覽日:2025/11/24)
引註此篇文章
你可能還會想看
美國簽署晶片和科技法案,全球科技業將掀起波瀾

  美國近日為防堵中國、其他受關注國家如俄羅斯等國掌握半導體等高科技行業關鍵技術,遂致力於加強培養其本土之半導體及高科技通訊產業。於美國時間2022年8月9日美國總統拜登簽署 「2022年晶片和科技法案」 (CHIPS and Science Act 2022),該法案除可作為2021年頒布之「美國電信法案」之補助資金來源,發展開放式無線電接取網路(Open Radio Access Network, ORAN)外,亦有望大幅度提升美國本土晶片生產量。   本法案提高美國聯邦政府對科學技術研究及開發專案之授權,除授權美國商務部(Department of Commerce , DOC)、國防部(Department of Defense, DOD)外,還結合國務院(Department of State, DOS)透過資金補助之方式,發展影響美國競爭力及國家安全至關重要之半導體製造等高科技產業、人工智慧、量子計算等科學研究,本法案整體編列之預算高達2800億美元,至2027年時,授權金額預計將達1740億美元,而其中將挹注超過520億美元之資金用於發展美國本土晶片之生產及研發。   此外,該法案設有靜態限制,禁止接受補助之半導體企業投資以電子設計自動化(Electronic design automation, EDA)工具設計或製造晶片之中國公司,換句話言,即受補助之企業不得於十年內投資或擴大生產中國製低於28奈米之先進晶片。本法案亦提供25%之稅收優惠予於美國建造、裝設晶片廠之業者,以鼓勵企業進駐美國藉以提升美國生產之晶片總量,同時藉由企業之投資帶動美國各地經濟發展,提高就業率。   藉由本法案之制定,有望降低美國對其他國家晶片之依賴,並得藉此發展科技研究,對未來全球高科技產業供應鏈將造成偌大影響,值得持續關注。

台幹入股台資企業亦屬在大陸大區從事投資,必須事前向投審會提出申請

  近幾年來,為了增加台籍員工向心力,不少台商都辦過「增資認股」,多數的情況是,企業辦理增資時,讓出一部分股權,開放員工入股。不論,員工入股是否自行買單,企業辦理「增資入股」時,都會先由台灣母公司辦理增資海外控股公司,再將計畫入股的員工載入控股公司名冊。   隨著台資企業開放員工入股漸成風潮,士林電機董事會日前通過,將以士電蘇州恆通增資為首例,讓台籍幹部入股百分之二十,未來海外子公司,都將循相同模式,這是首次有上市櫃台商清楚表明,增資用途是讓員工入股,引起外界關注。   經濟部投資審議委員指出,依「在大陸地區從事投資或技術合作許可辦法」第4條第1項第3款規定,台灣地區人民在大陸地區取得當地現有公司股權,視為「在大陸地區從事投資」,必須在行為發生前,依同法第7條第1 項備具申請書件向投審會申請許可,縱投資金額在公告限額以下,亦應填具申報書並檢附相關文件向投審會申報。   根據上開規定,台幹入股台資企業,視為「投資」行為,必須事前提出申請,否則恐將挨罰。另員工入股之後,按在大陸地區從事投資或技術合作審查原則第3點規定,也必須遵守台灣地區個人對大陸投資累計金額不得超過八千萬元的上限。

地理空間資料(Geospatial Data)

  Google地圖、GPS導航、Facebook定位打卡、「台北等公車」、Uber叫車,「地理空間資料」(Geospatial Data)的運用已經滲透現代人的生活。然而,究竟什麼是「地理空間資料」?所謂「地理空間資料」,依美國的《2018年地理空間資料法》 (Geospatial Data Act of 2018)的定義:「與地球上緊扣相關的位置資訊,包含辨識地球上的地理位置和自然或結構特徵與疆界。在向量資料組(Vector Dataset)中,大致以點、線、多邊形或複雜的地理特徵或現象呈現。該資料可能透過遙測(Remote Sensing)、製圖(Mapping)和量測(Surveying)科技取得。」   地理空間資料涉及地理學、地圖學(Cartography)、地理資訊系統學(Geographical Information Science, GIScience)及許多相關的科學領域。互動式的時間與空間功能,成就了當今混和空間與時間的資訊爆炸,更是五花八門運用地理資訊的手機應用程式之基礎等。應用場景涉及政府、商業、社會各層面,順利達成多元且重要的任務,例如:疾病通報、環境監測和公共安全。2017年Google於委託AlphaBeta的分析報告指出:「全球地理空間資料相關服務每年有四千億美元的產值、節省消費者超過五千五百億美元的燃料和時間成本、直接創造四百萬份工作機會。透過電子地圖服務,如:提高顧客流量的免費行銷工具Google My Business,更促使小型商家產生1.2兆美金的營業額。」

美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。   美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。   與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。   但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

TOP