美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/04/04)
引註此篇文章
你可能還會想看
JST(日本科學技術振興機構)發表關於大學智財的政策建言

  於回顧過去10多年來在大學智慧財產相關的政策措施以後,日本科學技術振興機構(JST)智慧財產戰略中心於7月5日就「政策建言-回首長達十多年的大學智財相關政策措施並探求今後的發展」總結作出發表。根據外識學者專家所組成的JST智慧財產戰略委員會所作成的研議,其就大學智財此後所追求的目標願景,以及為達成該願景各個部門(政府、大學、技轉中心與JST)各自所應扮演的角色提出了整體的建議。   在建言中提到,大學智財的目標願景乃在於「以未來運用為導向擬定智財策略」與「確保研究成果轉化智慧財產,積極回饋國民社會」,並列舉各部門為達成目標願景所應執行之任務。   建言中主要提到的各部門任務如下所述: 【日本政府的任務】 ‧對於大學的智財評價,不應只限授權金收入,也應考慮共同研究、創新育成(由大學孕育而生的新創企業)的創出效果。 ‧應建構於獲得革新性的研究成果時,能夠搶先取得基礎專利、強化週邊專利的策略性的、機動性的強而有力的智財支援體制。 【日本大學、技轉中心的任務】 ‧為創造強勢的專礎專利,應能確保具備優秀判斷力的人材,與應進行充分的先前技術檢索。 ‧應以大學成果的早期實用化為導向,推進與中小、新創企業的合作關係。 ‧思考大學間、技轉中心間多樣而有效果的合作形態,積極謀求提升技轉機會。 ‧強化對學生與研究者的智財教育與智財進修。 【JST的任務】 ‧研析早期而積極的智財發掘與迅速而機動的資金投入等等主動性的支援模式。 ‧進行熟悉海外技術移轉的專業人材的配置與培育,且就對大學專利之權利侵害提供設置諮詢窗口等的支援措施。 ‧促進大學閒置專利的海外技術移轉。 ‧研議於鉅額資金投入而有多數大學、企業參與之特定大型計劃的場合,不受日本版the Bayh-Dole Act條款的限制,而由特定公共的機關等執行專利的管理。

澳洲政府制定ISP反垃圾郵件從業規則

  澳洲政府於 3 月 28 日 發布了反垃圾郵件( anti-spam )從業規則( code of practice ),強制網路服務提供者( ISP )採取反制措施,以防堵大量、不請自來的電子郵件;業者若未配合新法的要求,將面臨鉅額的罰款。   繼 2003 年頒布的「垃圾郵件法」( Spam Act )後,澳洲通訊及媒體局( Communications and Media Authority )此次依據垃圾郵件法規定,針對 ISP 業者進一步制定了從業規則,成為對抗垃圾郵件的另一項重要工具。新法課予 ISP 業者的主要義務包括了: (1) 向用戶提供過濾垃圾郵件的服務選項; (2) 合理限制用戶電子郵件的發送;及 (3) 設立相關的投訴機制等。   為給予業者相當的緩衝時間,新法將自今年的 7 月 16 日 實施,屆時主管機關將針對澳洲當地近 700 家 ISP 業者進行檢查。一旦發現有違規情事,澳洲聯邦法院可對之處以 1,000 萬澳幣以下的罰款。

歐盟公布資料保護相關指令適用意見書

  由歐盟二十七個會員國資料保護主管機關組成的第二十九條資料保護工作小組(The Article 29 Working Party)最近公布其應適用何國資料保護法規之意見書。   歐盟資料保護指令(EU Data Protection Directive)第四條對於蒐集或處理個人資料所應適用之法規有所規範,依該條規定,機構必須依其成立之國別適用該國資料保護法規;機構若於其他國家裝置設備處理資料,則須遵守設備所在地之法令。   隨著全球化的趨勢與新興科技的發展,目前處理資料機構之運作方式已與當初制定指令時有所不同,許多機構在世界各國設置營運點,向全球各地提供各類型服務,尤其是網際網路的發展,使得遠端服務及在虛擬環境下分享個人資訊更為容易,但同時也增加辨識資料處理所在地之困難度,因此工作小組提出該意見書,希望藉此釐清資料保護指令第四條之適用。   工作小組於該意見書中指出,資料保護指令所指的應適用法規,並非資料控制者(data controller)所在地之法規,而是附屬於該資料控制者並實質進行資料處理之機構的所在地法規。蓋因同一資料控制者可能在數國成立附屬機構,在此種狀況下判別適用法規的標準,應視實際上相關資料處理活動的發生地,亦即處理資料機構所在地。   而針對處理個人資料所使用之設備,工作小組表示,即使處理資料之機構並未擁有設備,而使用該設備處理個人資料時,亦可適用指令第四條之規定,需遵守設備所在地之相關法規;但工作小組同時特別釐清,以電信電纜或郵政服務等方式傳輸資料並不會落入資料保護法規之範疇。

用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限

用ChatGPT找法院判決?從Roberto Mata v. Avianca, Inc.案淺析生成式AI之侷限 資訊工業策進會科技法律研究所 2023年09月08日 生成式AI是透過研究過去資料,以創造新內容和想法的AI技術,其應用領域包括文字、圖像及影音。以ChatGPT為例,OpenAI自2022年11月30日發布ChatGPT後,短短二個月內,全球月均用戶數即達到1億人,無疑成為民眾日常生活中最容易近用的AI科技。 惟,生成式AI大量使用後,其中的問題也逐漸浮現。例如,ChatGPT提供的回答僅是從所學習的資料中統整歸納,無法保證資料的正確性。Roberto Mata v. Avianca, Inc.案即是因律師利用ChatGPT撰寫訴狀,卻未重新審視其所提供判決之正確性,以致後續引發訴狀中所描述的判決不存在爭議。 壹、事件摘要 Roberto Mata v. Avianca, Inc.案[1]中,原告Roberto Mata於2019年8月搭乘哥倫比亞航空從薩爾瓦多飛往紐約,飛行過程中膝蓋遭空服員的推車撞傷,並於2022年2月向法院提起訴訟,要求哥倫比亞航空為空服員的疏失作出賠償;哥倫比亞航空則主張已超過《蒙特婁公約》(Montreal Convention)第35條所訂之航空器抵達日起兩年內向法院提出損害賠償之請求時效。 R然而,法院審理過程中發現原告訴狀內引用之六個判決無法從判決系統中查詢,進而質疑判決之真實性。原告律師Steven A. Schwartz因而坦承訴狀中引用的六個判決是ChatGPT所提供,並宣稱針對ChatGPT所提供的判決,曾多次向ChatGPT確認該判決之正確性[2]。 貳、生成式AI應用之潛在風險 雖然運用生成式AI技術並結合自身專業知識執行特定任務,可能有助於提升效率,惟,從前述Roberto Mata v. Avianca, Inc.案亦可看出,依目前生成式AI技術之發展,仍可能產生資訊正確性疑慮。以下彙整生成式AI應用之8大潛在風險[3]: 一、能源使用及對環境危害 相較於傳統機器學習,生成式AI模型訓練將耗費更多運算資源與能源。根據波士頓大學電腦科學系Kate Saenko副教授表示,OpenAI的GPT-3模型擁有1,750億個參數,約會消耗1,287兆瓦/時的電力,並排放552噸二氧化碳。亦即,每當向生成式AI下一個指令,其所消耗的能源量相較於一般搜尋引擎將可能高出4至5倍[4]。 二、能力超出預期(Capability Overhang) 運算系統的黑盒子可能發展出超乎開發人員或使用者想像的隱藏功能,此發展將會對人類帶來新的助力還是成為危險的阻力,則會隨著使用者之間的相互作用而定。 三、輸出結果有偏見 生成式AI通常是利用公開資料進行訓練,若輸入資料在訓練時未受監督,而帶有真實世界既存的刻板印象(如語言、種族、性別、性取向、能力、文化等),據此建立之AI模型輸出結果可能帶有偏見。 四、智慧財產權疑慮 生成式AI進行模型訓練時,需仰賴大量網路資料或從其他大型資料庫蒐集訓練資料。然而,若原始資料來源不明確,可能引發取得資料未經同意或違反授權條款之疑慮,導致生成的內容存在侵權風險。 五、缺乏驗證事實功能 生成式AI時常提供看似正確卻與實際情形不符的回覆,若使用者誤信該答案即可能帶來風險。另外,生成式AI屬於持續動態發展的資訊生態系統,當產出結果有偏誤時,若沒有大規模的人為干預恐難以有效解決此問題。 六、數位犯罪增加與資安攻擊 過去由人工產製的釣魚郵件或網站可能受限於技術限制而容易被識破,然而,生成式AI能夠快速建立具高度說服力的各種擬真資料,降低詐騙的進入門檻。又,駭客亦有可能在不熟悉技術的情況下,利用AI進一步找出資安弱點或攻擊方法,增加防禦難度。 七、敏感資料外洩 使用雲端服務提供商所建立的生成式AI時,由於輸入的資料存儲於外部伺服器,若要追蹤或刪除有一定難度,若遭有心人士利用而導致濫用、攻擊或竄改,將可能產生資料外洩的風險。 八、影子AI(Shadow AI) 影子AI係指開發者未知或無法控制之AI使用情境。隨著AI模型複雜性增加,若開發人員與使用者未進行充分溝通,或使用者在未經充分指導下使用 AI 工具,將可能產生無法預期之風險。 參、事件評析 在Roberto Mata v. Avianca, Inc.案中,法院關注的焦點在於律師的行為,而非對AI技術使用的批判。法院認為,隨著技術的進步,利用可信賴的AI工具作為協助用途並無不當,惟,律師應踐行其專業素養,確保所提交文件之正確性[5]。 當AI科技發展逐漸朝向自主與獨立的方向前進,仍需注意生成式AI使用上之侷限。當個人在使用生成式AI時,需具備獨立思考判斷的能力,並驗證產出結果之正確性,不宜全盤接受生成式AI提供之回答。針對企業或具高度專業領域人士使用生成式AI時,除確認結果正確性外,更需注意資料保護及治理議題,例如建立AI工具合理使用情境及加強員工使用相關工具之教育訓練。在成本能負擔的情況下,可選擇透過企業內部的基礎設施訓練AI模型,或是在訓練模型前確保敏感資料已經加密或匿名。並應注意自身行業領域相關法規之更新或頒布,以適時調整資料使用之方式。 雖目前生成式AI仍有其使用之侷限,仍應抱持開放的態度,在技術使用與風險預防之間取得平衡,以能夠在技術發展的同時,更好地學習新興科技工具之使用。 [1]Mata v. Avianca, Inc., 1:22-cv-01461, (S.D.N.Y.). [2]Benjamin Weiser, Here’s What Happens When Your Lawyer Uses ChatGPT, The New York Times, May 27, 2023, https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html (last visited Aug. 4, 2023). [3]Boston Consulting Group [BCG], The CEO’s Roadmap on Generative AI (Mar. 2023), https://media-publications.bcg.com/BCG-Executive-Perspectives-CEOs-Roadmap-on-Generative-AI.pdf (last visited Aug. 29, 2023). [4]Kate Saenko, Is generative AI bad for the environment? A computer scientist explains the carbon footprint of ChatGPT and its cousins, The Conversation (May 23, 2023.), https://theconversation.com/is-generative-ai-bad-for-the-environment-a-computer-scientist-explains-the-carbon-footprint-of-chatgpt-and-its-cousins-204096 (last visited Sep. 7, 2023). [5]Robert Lufrano, ChatGPT and the Limits of AI in Legal Research, National Law Review, Volume XIII, Number 195 (Mar. 2023), https://www.natlawreview.com/article/chatgpt-and-limits-ai-legal-research (last visited Aug. 29, 2023).

TOP