本文為「經濟部產業技術司科技專案成果」
在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。 美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。 與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。 但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限 資訊工業策進會科技法律研究所 2023年09月08日 生成式AI是透過研究過去資料,以創造新內容和想法的AI技術,其應用領域包括文字、圖像及影音。以ChatGPT為例,OpenAI自2022年11月30日發布ChatGPT後,短短二個月內,全球月均用戶數即達到1億人,無疑成為民眾日常生活中最容易近用的AI科技。 惟,生成式AI大量使用後,其中的問題也逐漸浮現。例如,ChatGPT提供的回答僅是從所學習的資料中統整歸納,無法保證資料的正確性。Roberto Mata v. Avianca, Inc.案即是因律師利用ChatGPT撰寫訴狀,卻未重新審視其所提供判決之正確性,以致後續引發訴狀中所描述的判決不存在爭議。 壹、事件摘要 Roberto Mata v. Avianca, Inc.案[1]中,原告Roberto Mata於2019年8月搭乘哥倫比亞航空從薩爾瓦多飛往紐約,飛行過程中膝蓋遭空服員的推車撞傷,並於2022年2月向法院提起訴訟,要求哥倫比亞航空為空服員的疏失作出賠償;哥倫比亞航空則主張已超過《蒙特婁公約》(Montreal Convention)第35條所訂之航空器抵達日起兩年內向法院提出損害賠償之請求時效。 R然而,法院審理過程中發現原告訴狀內引用之六個判決無法從判決系統中查詢,進而質疑判決之真實性。原告律師Steven A. Schwartz因而坦承訴狀中引用的六個判決是ChatGPT所提供,並宣稱針對ChatGPT所提供的判決,曾多次向ChatGPT確認該判決之正確性[2]。 貳、生成式AI應用之潛在風險 雖然運用生成式AI技術並結合自身專業知識執行特定任務,可能有助於提升效率,惟,從前述Roberto Mata v. Avianca, Inc.案亦可看出,依目前生成式AI技術之發展,仍可能產生資訊正確性疑慮。以下彙整生成式AI應用之8大潛在風險[3]: 一、能源使用及對環境危害 相較於傳統機器學習,生成式AI模型訓練將耗費更多運算資源與能源。根據波士頓大學電腦科學系Kate Saenko副教授表示,OpenAI的GPT-3模型擁有1,750億個參數,約會消耗1,287兆瓦/時的電力,並排放552噸二氧化碳。亦即,每當向生成式AI下一個指令,其所消耗的能源量相較於一般搜尋引擎將可能高出4至5倍[4]。 二、能力超出預期(Capability Overhang) 運算系統的黑盒子可能發展出超乎開發人員或使用者想像的隱藏功能,此發展將會對人類帶來新的助力還是成為危險的阻力,則會隨著使用者之間的相互作用而定。 三、輸出結果有偏見 生成式AI通常是利用公開資料進行訓練,若輸入資料在訓練時未受監督,而帶有真實世界既存的刻板印象(如語言、種族、性別、性取向、能力、文化等),據此建立之AI模型輸出結果可能帶有偏見。 四、智慧財產權疑慮 生成式AI進行模型訓練時,需仰賴大量網路資料或從其他大型資料庫蒐集訓練資料。然而,若原始資料來源不明確,可能引發取得資料未經同意或違反授權條款之疑慮,導致生成的內容存在侵權風險。 五、缺乏驗證事實功能 生成式AI時常提供看似正確卻與實際情形不符的回覆,若使用者誤信該答案即可能帶來風險。另外,生成式AI屬於持續動態發展的資訊生態系統,當產出結果有偏誤時,若沒有大規模的人為干預恐難以有效解決此問題。 六、數位犯罪增加與資安攻擊 過去由人工產製的釣魚郵件或網站可能受限於技術限制而容易被識破,然而,生成式AI能夠快速建立具高度說服力的各種擬真資料,降低詐騙的進入門檻。又,駭客亦有可能在不熟悉技術的情況下,利用AI進一步找出資安弱點或攻擊方法,增加防禦難度。 七、敏感資料外洩 使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,若要追蹤或刪除有一定難度,若遭有心人士利用而導致濫用、攻擊或竄改,將可能產生資料外洩的風險。 八、影子AI(Shadow AI) 影子AI係指開發者未知或無法控制之AI使用情境。隨著AI模型複雜性增加,若開發人員與使用者未進行充分溝通,或使用者在未經充分指導下使用 AI 工具,將可能產生無法預期之風險。 參、事件評析 在Roberto Mata v. Avianca, Inc.案中,法院關注的焦點在於律師的行為,而非對AI技術使用的批判。法院認為,隨著技術的進步,利用可信賴的AI工具作為協助用途並無不當,惟,律師應踐行其專業素養,確保所提交文件之正確性[5]。 當AI科技發展逐漸朝向自主與獨立的方向前進,仍需注意生成式AI使用上之侷限。當個人在使用生成式AI時,需具備獨立思考判斷的能力,並驗證產出結果之正確性,不宜全盤接受生成式AI提供之回答。針對企業或具高度專業領域人士使用生成式AI時,除確認結果正確性外,更需注意資料保護及治理議題,例如建立AI工具合理使用情境及加強員工使用相關工具之教育訓練。在成本能負擔的情況下,可選擇透過企業內部的基礎設施訓練AI模型,或是在訓練模型前確保敏感資料已經加密或匿名。並應注意自身行業領域相關法規之更新或頒布,以適時調整資料使用之方式。 雖目前生成式AI仍有其使用之侷限,仍應抱持開放的態度,在技術使用與風險預防之間取得平衡,以能夠在技術發展的同時,更好地學習新興科技工具之使用。 [1]Mata v. Avianca, Inc., 1:22-cv-01461, (S.D.N.Y.). [2]Benjamin Weiser, Here’s What Happens When Your Lawyer Uses ChatGPT, The New York Times, May 27, 2023, https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html (last visited Aug. 4, 2023). [3]Boston Consulting Group [BCG], The CEO’s Roadmap on Generative AI (Mar. 2023), https://media-publications.bcg.com/BCG-Executive-Perspectives-CEOs-Roadmap-on-Generative-AI.pdf (last visited Aug. 29, 2023). [4]Kate Saenko, Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins, The Conversation (May 23, 2023.), https://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096 (last visited Sep. 7, 2023). [5]Robert Lufrano, ChatGPT and the Limits of AI in Legal Research, National Law Review, Volume XIII, Number 195 (Mar. 2023), https://www.natlawreview.com/article/chatgpt-and-limits-ai-legal-research (last visited Aug. 29, 2023).
為了確保網絡安全,歐盟頒佈新的網路安全計畫網絡活動無遠弗屆,其所帶來的影響也逐漸引起世界各國的關注。依據歐盟針對網絡安全現況所做的調查發現,首先,現行估計存有150,000隻電腦病毒在網路間流竄,並已造成148,000部電腦受到威脅;第二,世界經濟論壇(World Economic Forum)指出,在未來的十年內,主要重大資訊基礎設施估計將有10%遭到破壞,其將導致2500億美金的損失;第三,著名資安公司(Symantec與McAfee)估計,全世界因網路犯罪而受害者,每年將會損失2900億歐元。相反地,因網路犯罪而受益者,其獲利將可高達每年7500億歐元;第四,依據 Eurobarometer在2012年針對網絡安全的民調指出,38%歐盟網路使用者因網絡安全因素已改變他們的網路行為方式;74%使用者同意,成為網絡安全受害者的風險已經逐漸增加;12%使用者已經遭受線上詐欺且89%使用者已避免在網上揭露個人資料;第五,據網絡暨資訊安全(NIS)的公眾諮詢發現,56.8%受訪者指出,在過去一年已經歷NIS事件對其網絡活動所帶來的嚴重影響;第六,Eurostat figures指出,直到2012年一月,在歐盟境內的企業僅有26%已經制定出完整的ICT安全政策。 有鑑於網路安全風險所帶來的效應已漸受重視,歐盟執委會(European Commission)會同歐盟外交暨安全政策高級代表(High Representative of the Union for Foreign Affairs and Security Policy共同發佈網絡安全策略,並計畫延引出歐盟執委會在NIS面向上的新指令(directive)。新的歐盟網絡安全策略,名為「開放、安全與可靠網絡空間」,代表著歐盟在預防和反應網絡攻擊和侵擾問題上的全面性預見。在該策略中,包含五個重大優先處理事項: 一、達到網絡韌性(Achieving cyber resilience) 二、徹底減少網路犯罪(Drastically reducing cybercrime) 三、針對一般安全暨防禦政策,發展網絡防禦政策和能力(Developing cyber defence policy and capabilities relatedto the Common Security and Defence Policy (CSDP)) 四、對網絡安全發展出企業性和技術性資源(Developing the industrial and technological resources for cyber-security) 五、為歐盟建立一個完整的國際網絡空間政策與促進歐盟核心價值(Establishing a coherent international cyberspace policy for the European Union and promoting core EU values) 為了達成歐盟網絡安全策略所形塑的優先事項,歐盟執委會亦計畫針對NIS來頒佈新的指令以落實策略項目,其中包含,首先,要求歐盟會員國必須採納NIS策略且指定國家級機關(需具有足夠人力和財務資源)來預防、處理和回應NIS風險與事件;第二,透過安全基礎設施和組成一般性的同儕審議,在歐盟會員國與執委會間建立合作機制來分享NIS風險和事件的早期預警;第三,某些領域重大基礎設施的運作者(金融服務、交通、能源或健康)、資訊社會服務的推動者(app商店電子商務平台、線上支付、雲端運算、搜尋引擎、社群網絡)和公家行政部門必須在其核心服務上,採納風險管理作法和報告主要網絡安全事件。 從歐盟網絡安全策略和執委會計畫頒佈的NIS指令可以發現,歐盟對於新世代的網絡安全風險已經有完整的預見與具體的因應措施。針對新型態的網絡安全威脅,我國如何能及早適時預警並作出相應的防範機制,以確保產業經濟、公共交通、資訊工業和國防安全等不會受到外部威脅,將是我國政府必須先行正視的問題。
摩托羅拉告蘋果專利侵權,手機大廠展開互告混戰摩托羅拉旗下子公司Motorola Mobility於10月6日向美國國際貿易委員會(ITC)提訴,指蘋果公司的iPhone, iPad, iTouch 以及一些 Mac電腦侵害其專利,同時Motorola Mobility也在伊利諾州北區和佛州南區的聯邦法院提出告訴。值得一提的是,在對法院提出的告訴中僅僅是 “指稱” 多種蘋果公司的產品如Apple iPhone 3G, Apple iPad等侵害其專利權,像這種沒有提出具體證據的告訴儼然已經成為風氣,似乎違反了最高法院於Bell Atlantic Corp. v. Twombly案中指出必須要提出明確的事證而非僅止於推論(speculation)的要求。 Motorola Mobility提出的3項告訴中共包含18項專利,乃是關於無線通訊技術,例如WCDMA (3G)、GPRS, 802.11、天線設計,以及關鍵的智慧手機技術,包括無線電子郵件、近距感測(proximity sensing)、軟體應用管理等。Motorola 智財部門的副總裁Kirk Dailey表示自蘋果進入通訊市場以來即開始與其長期磋商,但因為蘋果拒絕接受授權所以不得不提出告訴以阻止他們繼續侵權。近來手機市場上專利侵權互告頻繁,摩托羅拉的Android智慧手機日前也遭微軟控告侵權,HTC也與蘋果對簿公堂。Google、蘋果等手機市場的新秀顯然已對摩托羅拉、微軟等老前輩構成競爭壓力,形成手機大廠互相控告侵權的戲碼不斷上演。