落實完善數位資料管理機制,
有助於降低AI歧視及資料外洩風險
資訊工業策進會科技法律研究所
2023年07月07日
近年來,科技快速發展,AI(人工智慧)等技術日新月異,在公私部門的應用日益廣泛,而且根據美國資訊科技研究與顧問公司Gartner在2023年5月發布的調查指出,隨著由OpenAI開發的ChatGPT取得成功,更促使各領域對於AI應用的高度重視與投入[1],與此同時,AI歧視及資料外洩等問題,亦成為社會各界的重大關切議題。
壹、事件摘要
目前AI科技發展已牽動全球經濟發展,根據麥肯錫公司近期發布的《生成式人工智慧的經濟潛力:下一個生產力前沿(The next productivity frontier)》研究報告指出,預測生成式AI(Generative AI)有望每年為全球經濟增加2.6兆至4.4兆的經濟價值[2]。同時在美國資訊科技研究與顧問公司Gartner對於超過2500名高階主管的調查中,45%受訪者認為ChatGPT問世,增加其對於AI的投資。而且68%受訪者認為AI的好處大於風險,僅有5%受訪者認為風險大於好處[3]。然而有社會輿論認為AI的判斷依賴訓練資料,將可能複製人類偏見,造成AI歧視問題,而且若程式碼有漏洞或帳戶被盜用時,亦會造成資料外洩問題。
貳、重點說明
首先,關於AI歧視問題,以金融領域為例,近期歐盟委員會副主席Margrethe Vestager強調若AI用於可能影響他人生計的關鍵決策時,如決定是否能取得貸款,應確保申請人不受性別或膚色等歧視[4],同時亦有論者認為若用於訓練AI的歷史資料,本身存有偏見問題,則可能導致系統自動拒絕向邊緣化族群貸款,在無形之中加劇,甚至永久化對於特定種族或性別的歧視[5]。
其次,關於資料外洩問題,資安公司Group-IB指出因目前在預設情況下,ChatGPT將保存使用者查詢及AI回應的訊息紀錄,若帳戶被盜,則可能洩露機敏資訊。據統計在2022年6月至2023年5月間,在亞太地區有近41000個帳戶被盜,而在中東和非洲地區有近25000個帳戶被盜,甚至在歐洲地區也有近17000個帳戶被盜[6]。另外在2023年3月時,ChatGPT除了發生部分用戶能夠檢視他人聊天紀錄標題的問題外,甚至發生個人資料外洩問題,即用戶可能知悉他人的姓名、電子郵件,付款地址,信用卡到期日及號碼末四碼等資料[7]。
參、事件評析
對於AI歧視及資料外洩等問題,應透過落實完善數位資料治理與管理機制,以降低問題發生的風險。首先,在收集訓練資料時,為篩選適合作為模型或演算法基礎的資料,應建立資料評估或審查機制,減少或避免使用有潛在歧視問題的資料,以確保分析結果之精確性。
其次,不論對於訓練資料、分析所得資料或用戶個人資料等,均應落實嚴謹的資料保密措施,避免資料外洩,如必須對於資料進行標示或分類,並依照不同標示或分類,評估及採取適當程度的保密措施。同時應對於資料進行格式轉換,以無法直接開啟的檔案格式進行留存,縱使未來可能不慎發生資料外洩,任意第三人仍難以直接開啟或解析資料內容。甚至在傳送帳戶登入訊息時,亦應採取適當加密傳送機制,避免遭他人竊取,盜取帳戶或個人資料。
財團法人資訊工業策進會科技法律研究所長期致力於促進國家科技法制環境完善,於2021年7月發布「重要數位資料治理暨管理制度規範(Essential Data Governance and Management System,簡稱EDGS)」,完整涵蓋數位資料的生成、保護與維護,以及存證資訊的取得、維護與驗證的流程化管理機制,故對於不同公私部門的AI相關資料,均可參考EDGS,建立系統性數位資料管理機制或強化既有機制。
本文同步刊登於TIPS網站(https://www.tips.org.tw)
[1]Gartner, Gartner Poll Finds 45% of Executives Say ChatGPT Has Prompted an Increase in AI Investment (May 3, 2023), https://www.gartner.com/en/newsroom/press-releases/2023-05-03-gartner-poll-finds-45-percent-of-executives-say-chatgpt-has-prompted-an-increase-in-ai-investment (last visited June 30, 2023).
[2]McKinsey, The economic potential of generative AI: The next productivity frontier (June 14, 2023), https://www.mckinsey.com/capabilities/mckinsey-digital/our-insights/the-economic-potential-of-generative-AI-the-next-productivity-frontier#introduction (last visited June 30, 2023).
[3]Gartner, supra note 1.
[4]Zoe Kleinman, Philippa Wain & Ashleigh Swan, Using AI for loans and mortgages is big risk, warns EU boss (June 14, 2023), https://www.bbc.com/news/technology-65881389 (last visited June 30, 2023).
[5]Ryan Browne & MacKenzie Sigalos, A.I. has a discrimination problem. In banking, the consequences can be severe (June 23, 2023), https://www.cnbc.com/2023/06/23/ai-has-a-discrimination-problem-in-banking-that-can-be-devastating.html (last visited June 30, 2023).
[6]Group-IB, Group-IB Discovers 100K+ Compromised ChatGPT Accounts on Dark Web Marketplaces; Asia-Pacific region tops the list (June 20, 2023), https://www.group-ib.com/media-center/press-releases/stealers-chatgpt-credentials/ (last visited June 30, 2023).
[7]OpenAI, March 20 ChatGPT outage: Here’s what happened (Mar. 24, 2023),https://openai.com/blog/march-20-chatgpt-outage (last visited June 30, 2023).
用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限 資訊工業策進會科技法律研究所 2023年09月08日 生成式AI是透過研究過去資料,以創造新內容和想法的AI技術,其應用領域包括文字、圖像及影音。以ChatGPT為例,OpenAI自2022年11月30日發布ChatGPT後,短短二個月內,全球月均用戶數即達到1億人,無疑成為民眾日常生活中最容易近用的AI科技。 惟,生成式AI大量使用後,其中的問題也逐漸浮現。例如,ChatGPT提供的回答僅是從所學習的資料中統整歸納,無法保證資料的正確性。Roberto Mata v. Avianca, Inc.案即是因律師利用ChatGPT撰寫訴狀,卻未重新審視其所提供判決之正確性,以致後續引發訴狀中所描述的判決不存在爭議。 壹、事件摘要 Roberto Mata v. Avianca, Inc.案[1]中,原告Roberto Mata於2019年8月搭乘哥倫比亞航空從薩爾瓦多飛往紐約,飛行過程中膝蓋遭空服員的推車撞傷,並於2022年2月向法院提起訴訟,要求哥倫比亞航空為空服員的疏失作出賠償;哥倫比亞航空則主張已超過《蒙特婁公約》(Montreal Convention)第35條所訂之航空器抵達日起兩年內向法院提出損害賠償之請求時效。 R然而,法院審理過程中發現原告訴狀內引用之六個判決無法從判決系統中查詢,進而質疑判決之真實性。原告律師Steven A. Schwartz因而坦承訴狀中引用的六個判決是ChatGPT所提供,並宣稱針對ChatGPT所提供的判決,曾多次向ChatGPT確認該判決之正確性[2]。 貳、生成式AI應用之潛在風險 雖然運用生成式AI技術並結合自身專業知識執行特定任務,可能有助於提升效率,惟,從前述Roberto Mata v. Avianca, Inc.案亦可看出,依目前生成式AI技術之發展,仍可能產生資訊正確性疑慮。以下彙整生成式AI應用之8大潛在風險[3]: 一、能源使用及對環境危害 相較於傳統機器學習,生成式AI模型訓練將耗費更多運算資源與能源。根據波士頓大學電腦科學系Kate Saenko副教授表示,OpenAI的GPT-3模型擁有1,750億個參數,約會消耗1,287兆瓦/時的電力,並排放552噸二氧化碳。亦即,每當向生成式AI下一個指令,其所消耗的能源量相較於一般搜尋引擎將可能高出4至5倍[4]。 二、能力超出預期(Capability Overhang) 運算系統的黑盒子可能發展出超乎開發人員或使用者想像的隱藏功能,此發展將會對人類帶來新的助力還是成為危險的阻力,則會隨著使用者之間的相互作用而定。 三、輸出結果有偏見 生成式AI通常是利用公開資料進行訓練,若輸入資料在訓練時未受監督,而帶有真實世界既存的刻板印象(如語言、種族、性別、性取向、能力、文化等),據此建立之AI模型輸出結果可能帶有偏見。 四、智慧財產權疑慮 生成式AI進行模型訓練時,需仰賴大量網路資料或從其他大型資料庫蒐集訓練資料。然而,若原始資料來源不明確,可能引發取得資料未經同意或違反授權條款之疑慮,導致生成的內容存在侵權風險。 五、缺乏驗證事實功能 生成式AI時常提供看似正確卻與實際情形不符的回覆,若使用者誤信該答案即可能帶來風險。另外,生成式AI屬於持續動態發展的資訊生態系統,當產出結果有偏誤時,若沒有大規模的人為干預恐難以有效解決此問題。 六、數位犯罪增加與資安攻擊 過去由人工產製的釣魚郵件或網站可能受限於技術限制而容易被識破,然而,生成式AI能夠快速建立具高度說服力的各種擬真資料,降低詐騙的進入門檻。又,駭客亦有可能在不熟悉技術的情況下,利用AI進一步找出資安弱點或攻擊方法,增加防禦難度。 七、敏感資料外洩 使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,若要追蹤或刪除有一定難度,若遭有心人士利用而導致濫用、攻擊或竄改,將可能產生資料外洩的風險。 八、影子AI(Shadow AI) 影子AI係指開發者未知或無法控制之AI使用情境。隨著AI模型複雜性增加,若開發人員與使用者未進行充分溝通,或使用者在未經充分指導下使用 AI 工具,將可能產生無法預期之風險。 參、事件評析 在Roberto Mata v. Avianca, Inc.案中,法院關注的焦點在於律師的行為,而非對AI技術使用的批判。法院認為,隨著技術的進步,利用可信賴的AI工具作為協助用途並無不當,惟,律師應踐行其專業素養,確保所提交文件之正確性[5]。 當AI科技發展逐漸朝向自主與獨立的方向前進,仍需注意生成式AI使用上之侷限。當個人在使用生成式AI時,需具備獨立思考判斷的能力,並驗證產出結果之正確性,不宜全盤接受生成式AI提供之回答。針對企業或具高度專業領域人士使用生成式AI時,除確認結果正確性外,更需注意資料保護及治理議題,例如建立AI工具合理使用情境及加強員工使用相關工具之教育訓練。在成本能負擔的情況下,可選擇透過企業內部的基礎設施訓練AI模型,或是在訓練模型前確保敏感資料已經加密或匿名。並應注意自身行業領域相關法規之更新或頒布,以適時調整資料使用之方式。 雖目前生成式AI仍有其使用之侷限,仍應抱持開放的態度,在技術使用與風險預防之間取得平衡,以能夠在技術發展的同時,更好地學習新興科技工具之使用。 [1]Mata v. Avianca, Inc., 1:22-cv-01461, (S.D.N.Y.). [2]Benjamin Weiser, Here’s What Happens When Your Lawyer Uses ChatGPT, The New York Times, May 27, 2023, https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html (last visited Aug. 4, 2023). [3]Boston Consulting Group [BCG], The CEO’s Roadmap on Generative AI (Mar. 2023), https://media-publications.bcg.com/BCG-Executive-Perspectives-CEOs-Roadmap-on-Generative-AI.pdf (last visited Aug. 29, 2023). [4]Kate Saenko, Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins, The Conversation (May 23, 2023.), https://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096 (last visited Sep. 7, 2023). [5]Robert Lufrano, ChatGPT and the Limits of AI in Legal Research, National Law Review, Volume XIII, Number 195 (Mar. 2023), https://www.natlawreview.com/article/chatgpt-and-limits-ai-legal-research (last visited Aug. 29, 2023).
如何規範通聯紀錄的詐取及販售行為,成為美方關注的焦點美國第四大無線通訊業者T-Mobile於1月24日依據華盛頓州暴利罪法(criminal profiteering laws)向該州高等法院提出申請,要求法院對Data Find Solutions公司、1st Source Information Specialists公司及其他有關的公司與個人發出禁制令(injunction),以防止上述公司透過詐欺手段獲取及販售T-Mobile客戶的通聯紀錄(call records)。 目前包括了州議員、州檢察總長及聯邦通訊傳播委員會(Federal Communications Commission),均積極探求相關的法律規定,如果Data Find Solutions等公司非法獲取及販售通聯紀錄的情況屬實,將依法予以定罪。 無獨有偶,在一週之前伊利諾州檢察總長也對1st Source Information Specialists公司提出了訴訟,控告該公司非法取得及販售通聯紀錄。數位眾議員及參議員,已經公布了相關立法計畫,未來凡以欺詐的手段獲取及出售通聯紀錄都將被視為違法行為。參議院多數黨領袖Bill Frist議員即表示,「詐取客戶通聯紀錄並透過網路出售是一錯誤的行為,必須加以制止。」
南韓政府推出新的無線網路推動計畫 搶佔智慧行動發展先機韓國通訊委員會(Korea Communications Commission,KCC)主席Choi See-jung於2010年4月21日宣布韓國政府將推動一項新的「無線網路活化計畫」(comprehensive plans for wireless internet activation),預計在未來五年間投入1兆5000億韓圜,與民間共同合作發展無線網路建設,以搶佔智慧行動領域的發展先機。 因應智慧手機發展速度倍增在政治面上帶來的需求,韓國政府希望透過本計畫能將南韓建設成「智慧行動領域的發電所(powerhouse)」。並據此願景規劃了4個政策目標、10項策略方案。此四個政策目標包括:確保在智慧行動領域的全球競爭力、推動智慧手機的普及與生產應用、營造世界最高水準的無線寬頻網路、強化下世代行動科技的發展與人才培育。 KCC將組成「網路去管制推動小組」(Internet de-regulation promotion team),於4月底開始著手進行包括定位資料保護、用戶識別系統和智慧手機的金流安控等領域的法規檢視與修正工作。 KCC預測能藉此創造12,535個工作機會、促進3,648億韓圜的產值。KCC同時解釋,透過對無線網路的活化應用,支持在各層面的創新應用發展(包括醫療服務、商業活動、教育等領域),此時正是奠定韓國成為行動服務核心業務強國的時機。
美國《保護美國人免受外國對手應用程式侵害法案》生效,延長受規範主體出售持股之期限早在今年(2024年) 3月13日,美國眾議院曾正式表決通過《保護美國人免受外國對手應用程式侵害法案》(Protecting Americans from Foreign Adversary Controlled Applications Act),所有由「外國敵對勢力控制的應用程式」若對國內造成國安威脅,則必須在法案生效後的6個月內拆分在美國之業務及出售持股,且收購公司或新成立公司的營運必須完全獨立自主,不得與原事業有任何往來或合作關係,包括演算法或資料分享等。而相關收購案也須經過主管機關審查,確認其出售之後已完全脫離外國敵對勢力的控制,直到分拆業務為止,美國的虛擬主機服務提供者,始得為其架設網站;若超過期限而未出售,其將從應用程式商店和基於網路的託管服務中被關閉,永久被排除在美國的Google Play、Apple App Store等軟體商店之外。 攤開美國商務部所列的外國敵對勢力清單,中國大陸和香港、古巴、伊朗、北韓、俄國都在名單之列。然而,擁有1.7億美國使用者的短影音平臺TikTok在美國極為盛行,且盛傳TikTok似將所蒐集的美國使用者個人資料提供中國大陸北京政府,因而成為該法案首當其衝的頭號目標。故法案當中即點名TikTok,甚至強調其母公司字節跳動(ByteDance)未來推出的應用程式亦在禁止之列,故該法案又俗稱TikTok禁令。 於審議2024年度的國安補充撥款法案時遂提出將援外法案裂解成獨立法案的發想,而TikToK禁令則屬其他國安需求之類別而包裹在另外一個法案中進行單獨的審議及表決,為兩黨創造更多妥協空間,以便在個別議題上尋求最大公約數。4月20日下午,眾議院以360票贊成58票反對通過《透過力量實現21世紀和平法案》(21st Century Peace through Strength Act),爾後以四案合一的包裹方式送交參議院審議表決,於當地時間23日晚間美國參議院通過該單一修正案,24日再經美國總統拜登(Joe Biden)簽署後正式生效。該HR8038法案包含對以色列、烏克蘭、印太區域安全的3項援助法案,至於強制TikTok脫離中國大陸母公司字節跳動的措施則位在法案的D章節,此部分名為「保護美國人免受外國對手控制應用程式侵害」,實質上乃與眾議院上月通過的法案類同,僅在出售期限上與眾議院上月通過的版本不同,其理由在強調該法案首在以「撤資」為核心,故從原先6個月之限期展延至1年,而此1年期限包含法案生效後270天內讓受規範者脫售持有股份,如於出售期限屆期之際,倘在任何收購階段已取得進展或近乎完成撤資之目標,總統基於職權可額外授權給予90天寛限期以便完成交易程序。從而當前受第一波影響的TikTok得暫時在美國市場續命,惟若終局倘未能出售其在美資產及持股而達完全剝離母公司控制之進程,仍舊得面臨業務全面下架並禁止在美國境內運營的結果。 從HR8038法案的通過可透析兩個重要資訊: 1.為美方體認到社群媒體強大的認知影響力:此前有關數位平臺演算法如何推薦特定內容的曝光不易由法律監管,任何措施皆須在美國憲法第一修正案的框架下進行,避免任何人對言論自由和獲取資訊施加限制,因而法案改以不公平競爭之角度為外衣,迫使敵國之外國企業出售技術和資產,防免其透過不透明的演算法操縱美國人民的行為判斷。 2.從法案的性質上綱到國家安全層次觀察:可探知該法案為美中在科技領域角力下之產物,阻止中國大陸將數據資料武器化,由於中國從2017年起,陸續通過《國家情報法》、《網絡安全法》和《數據安全法》等國安法規,明文規定如為維護國家安全或調查犯罪,有關單位可以調取數據,而握有數據的私人企業或個人只能依法配合,同時中國大陸北京政府也大力整頓網路科技業者,目的之一就是提高國家對企業蒐集資料的控制,產生干預美國內政之風險。 惟TikToK借鑒在蒙大拿州之經驗,表示將同樣基於違反美國憲法第一修正案所保障之言論自由採取法律行動,擬透過司法救濟途徑爭取其在市場上繼續運營的空間。若期間法院未作成任何決定,自法案生效日(2024年4月24日)起算270天,正值落在下一任總統就職前一天,即2025年1月19日之前,字節跳動公司必須出售TikTok在美之業務及資產,屆期未出售則將從Apple App Store或Google Play等應用程式商店全面下架TikTok及其更新版,否則應用程式商店將面臨依使用者數量計算的等比例罰款,另外其他網路服務供應商也將封鎖TikTok進行網路存取。