用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限
資訊工業策進會科技法律研究所
2023年09月08日
生成式AI是透過研究過去資料,以創造新內容和想法的AI技術,其應用領域包括文字、圖像及影音。以ChatGPT為例,OpenAI自2022年11月30日發布ChatGPT後,短短二個月內,全球月均用戶數即達到1億人,無疑成為民眾日常生活中最容易近用的AI科技。
惟,生成式AI大量使用後,其中的問題也逐漸浮現。例如,ChatGPT提供的回答僅是從所學習的資料中統整歸納,無法保證資料的正確性。Roberto Mata v. Avianca, Inc.案即是因律師利用ChatGPT撰寫訴狀,卻未重新審視其所提供判決之正確性,以致後續引發訴狀中所描述的判決不存在爭議。
壹、事件摘要
Roberto Mata v. Avianca, Inc.案[1]中,原告Roberto Mata於2019年8月搭乘哥倫比亞航空從薩爾瓦多飛往紐約,飛行過程中膝蓋遭空服員的推車撞傷,並於2022年2月向法院提起訴訟,要求哥倫比亞航空為空服員的疏失作出賠償;哥倫比亞航空則主張已超過《蒙特婁公約》(Montreal Convention)第35條所訂之航空器抵達日起兩年內向法院提出損害賠償之請求時效。
R然而,法院審理過程中發現原告訴狀內引用之六個判決無法從判決系統中查詢,進而質疑判決之真實性。原告律師Steven A. Schwartz因而坦承訴狀中引用的六個判決是ChatGPT所提供,並宣稱針對ChatGPT所提供的判決,曾多次向ChatGPT確認該判決之正確性[2]。
貳、生成式AI應用之潛在風險
雖然運用生成式AI技術並結合自身專業知識執行特定任務,可能有助於提升效率,惟,從前述Roberto Mata v. Avianca, Inc.案亦可看出,依目前生成式AI技術之發展,仍可能產生資訊正確性疑慮。以下彙整生成式AI應用之8大潛在風險[3]:
一、能源使用及對環境危害
相較於傳統機器學習,生成式AI模型訓練將耗費更多運算資源與能源。根據波士頓大學電腦科學系Kate Saenko副教授表示,OpenAI的GPT-3模型擁有1,750億個參數,約會消耗1,287兆瓦/時的電力,並排放552噸二氧化碳。亦即,每當向生成式AI下一個指令,其所消耗的能源量相較於一般搜尋引擎將可能高出4至5倍[4]。
二、能力超出預期(Capability Overhang)
運算系統的黑盒子可能發展出超乎開發人員或使用者想像的隱藏功能,此發展將會對人類帶來新的助力還是成為危險的阻力,則會隨著使用者之間的相互作用而定。
三、輸出結果有偏見
生成式AI通常是利用公開資料進行訓練,若輸入資料在訓練時未受監督,而帶有真實世界既存的刻板印象(如語言、種族、性別、性取向、能力、文化等),據此建立之AI模型輸出結果可能帶有偏見。
四、智慧財產權疑慮
生成式AI進行模型訓練時,需仰賴大量網路資料或從其他大型資料庫蒐集訓練資料。然而,若原始資料來源不明確,可能引發取得資料未經同意或違反授權條款之疑慮,導致生成的內容存在侵權風險。
五、缺乏驗證事實功能
生成式AI時常提供看似正確卻與實際情形不符的回覆,若使用者誤信該答案即可能帶來風險。另外,生成式AI屬於持續動態發展的資訊生態系統,當產出結果有偏誤時,若沒有大規模的人為干預恐難以有效解決此問題。
六、數位犯罪增加與資安攻擊
過去由人工產製的釣魚郵件或網站可能受限於技術限制而容易被識破,然而,生成式AI能夠快速建立具高度說服力的各種擬真資料,降低詐騙的進入門檻。又,駭客亦有可能在不熟悉技術的情況下,利用AI進一步找出資安弱點或攻擊方法,增加防禦難度。
七、敏感資料外洩
使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,若要追蹤或刪除有一定難度,若遭有心人士利用而導致濫用、攻擊或竄改,將可能產生資料外洩的風險。
八、影子AI(Shadow AI)
影子AI係指開發者未知或無法控制之AI使用情境。隨著AI模型複雜性增加,若開發人員與使用者未進行充分溝通,或使用者在未經充分指導下使用 AI 工具,將可能產生無法預期之風險。
參、事件評析
在Roberto Mata v. Avianca, Inc.案中,法院關注的焦點在於律師的行為,而非對AI技術使用的批判。法院認為,隨著技術的進步,利用可信賴的AI工具作為協助用途並無不當,惟,律師應踐行其專業素養,確保所提交文件之正確性[5]。
當AI科技發展逐漸朝向自主與獨立的方向前進,仍需注意生成式AI使用上之侷限。當個人在使用生成式AI時,需具備獨立思考判斷的能力,並驗證產出結果之正確性,不宜全盤接受生成式AI提供之回答。針對企業或具高度專業領域人士使用生成式AI時,除確認結果正確性外,更需注意資料保護及治理議題,例如建立AI工具合理使用情境及加強員工使用相關工具之教育訓練。在成本能負擔的情況下,可選擇透過企業內部的基礎設施訓練AI模型,或是在訓練模型前確保敏感資料已經加密或匿名。並應注意自身行業領域相關法規之更新或頒布,以適時調整資料使用之方式。
雖目前生成式AI仍有其使用之侷限,仍應抱持開放的態度,在技術使用與風險預防之間取得平衡,以能夠在技術發展的同時,更好地學習新興科技工具之使用。
[1] Mata v. Avianca, Inc., 1:22-cv-01461, (S.D.N.Y.).
[2] Benjamin Weiser, Here’s What Happens When Your Lawyer Uses ChatGPT, The New York Times, May 27, 2023, https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html (last visited Aug. 4, 2023).
[3] Boston Consulting Group [BCG], The CEO’s Roadmap on Generative AI (Mar. 2023), https://media-publications.bcg.com/BCG-Executive-Perspectives-CEOs-Roadmap-on-Generative-AI.pdf (last visited Aug. 29, 2023).
[4] Kate Saenko, Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins, The Conversation (May 23, 2023.), https://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096 (last visited Sep. 7, 2023).
[5] Robert Lufrano, ChatGPT and the Limits of AI in Legal Research, National Law Review, Volume XIII, Number 195 (Mar. 2023), https://www.natlawreview.com/article/chatgpt-and-limits-ai-legal-research (last visited Aug. 29, 2023).
藥品監管機構負責人組織(Heads of Medicines Agencies, HMA)與歐洲藥品管理局(European Medicines Agency, EMA)聯合巨量資料指導小組(HMA-EMA joint Big Data Steering Group, BDSG)於2021年8月27日發布「巨量資料指導小組2021-2023年工作計畫」(Big Data Steering Group Workplan 2021-2023),將採以患者為焦點(patient-focused)之方法,將巨量資料整合至公衛、藥物開發與監管方法中,以提高巨量資料於監管中之效用。指導小組將利用「資料分析和真實世界訊問網路」(Data Analysis and Real World Interrogation Network, DARWIN EU)作為將真實世界資料整合至監管工作之關鍵手段; DARWIN EU諮詢委員會(Advisory Board)已於2021年建立,DARWIN EU協調中心(Coordination Centre)亦將於2022年初開始運作。 為確保資料品質與代表性,未來工作計畫將與「邁向歐洲健康資料空間–TEHDAS」(Towards A European Health Data Space – TEHDAS)合作,關注資料品質之技術與科學層面,並將於2022年提出第一版「歐洲監管網路資料品質框架」(data quality framework for the EU Regulatory Network)、「真實世界資料來源選擇標準」(criteria for the selection of RWD sources)、「詮釋資料優良規範指引」(metadata good practice guide)、「歐盟真實世界資料公用目錄」(public catalogue of European RWD)等規範。 此外,工作計畫將於2021年底舉辦「學習計劃」(learnings initiative)研討會,討論包括EMA人用藥品委員會(Committee for Medicinal Products for Human Use, CHMP)對於真實世界證據於藥品上市許可申請(Marketing Authorization Application, MAA)、適應症擴張(extensions of indications)之審查,以及過去真實世界資料分析試點於委員會之決策等議題,以利後續指引之修正。 最後,工作計畫預計於2021年底完成「健康照護資料二次使用之資料保護問與答文件」(question and answer document on data protection in the context of secondary use of healthcare data),以指導利益相關者與促進公共衛生研究,並發布由歐盟監管網路(EU Regulatory Network)同意之對於藥品監管(包括巨量資料)之資料標準化戰略。
截圖也違法,日本著作權法擬擴大違法下載之態樣日本文化廳文化審議會著作權分科會於2018年2月13日,出具分科會報告書,內容說明著作權法修正之方向。書中提及「重新檢視並修正違法下載之態樣」一點,擬將違法下載之態樣及動作,由「影音」擴及到所有靜態圖文(如漫畫、照片、小說、雜誌及論文等),「下載」擴及「截圖」(スクショ,screenshot)。 此次修法,起因於近來日本大量出現線上盜版漫畫網站,推估其半年所造成之損失可達4000億日幣以上。該報告書公布後,隨即湧現大量反對之聲浪。反對者認為修法之弊大於利,日本漫畫學會對此發表反對聲明,會長竹宮惠子對於修法表示憂心,認為修法將導致以下問題: 阻礙創作研究(如二次創作); 創作萎縮(日常下載及剪輯將被禁止); 難以判斷網路靜態圖文是否為違法上傳; 即使「下載」違法化,仍然無法根除線上盜版漫畫流通平台。 報告書中亦提及,在個人部落格及需加入會員之社群網(SNS)上傳或下載未經著作權人同意而公開之著作,亦屬違法。倘若為全書掃描上傳等惡性重大之行為,應科以刑責。 針對上述疑慮,報告書中的確未排除修法後將造成著作物在網路上利用萎縮之可能,然仍強調應透過官民間之合作努力,傳達正確之修法内容。並由出版社端導入「ABJ Mark」,推動正版漫畫流通平台,透過科技推動盜版網頁近用警示制度,使大眾知悉其行為即將侵害著作權等。由於法令修正之内容,影響人民日常生活甚鉅,後續修法將在各團體間如何折衝,上述措施能否普及或啟發人民觀念,值得後續持續關注。
歐盟發布頻譜政策公眾諮詢書於今年 5 月中旬,歐盟無線頻譜政策小組 ( Radio Spectrum Policy Group ,以下簡稱 RSPG ) 對於是否允許使用用以提供廣播電視服務之頻段,提供多媒體服務 (multimedia services) 一事,表示意見並徵詢共眾意見,而所稱的多媒體服務係指於行動通信環境中,提供結合傳統廣播 ( 一對多 ) 以及通訊 ( 點對點 ) 的服務。於此次的公眾意見諮詢書中, RSPG 表示此次意見諮詢的目的旨在促進多媒體服務的提供,但亦指出多媒體服務的發展不應扭曲頻譜的整體使用規劃以及市場競爭。除此之外,亦不應與歐盟各會員國境內以促進文化及媒體多元化之媒介內容規範相左。而就如何導入多媒體服務一事, RSPG 考量核發新執照,或是重新檢視現有的執照制度,以允許業者得使用頻譜提供多媒體服務。此次的公眾意見諮詢將於 6 月 14 日 結束,其發展有待未來更進一步的觀察。
哈佛研究者以私募基金展開人類胚胎複製哈佛大學的醫學研究人員最近公開表示,他們已經展開複製人類胚胎、創造幹細胞的工作,由於布希政府在數年前即已頒布禁令,禁止聯邦政府資助新的幹細胞系,故哈佛幹細胞研究所的這項計劃將以私人募集的基金進行。 人類胚胎幹細胞的研究一直具爭議性,因為抽取細胞需要破壞人類胚胎。哈佛幹細胞研究計劃以創造特定疾病的幹細胞系為目標,希望研發出多種不治之症的療法。哈佛大學認為這項計劃的潛在好處,大於人類生命神聖遭挑戰的關切,蓋其長期目標是,創造從病患細胞組織取得的胚胎幹細胞,修正基因缺陷,將修復細胞植回病患體內。校長薩默斯在聲明中說:「雖然我們了解且尊重反對此項研究者所持的信念,我們同樣誠摯地面對我們的信仰,相信攸關無數受苦孩童與成人生死的醫學需要,賦予這項研究繼續前進的正當性。」