美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2025/11/29)
引註此篇文章
你可能還會想看
行政院以5年320億推動六項策略科技

  為展現對高科技產業的重視,即將於4月1日舉行之行政院科技顧問會議年度會議,會議重點將鎖定「科技人才發展」與「下世代網路環境建構」。在「科技人才發展」方面,林政委逢慶表示,科技人才發展攸關台灣科技核心競爭力,政府必須進行中、長期人才資源規劃運用,放眼到2015年,政府將持續積極推展延攬海外科技人才的計畫;在替代役條例修正納入研發替代役後,未來投入科技的役男員額,將從目前國防訓儲每年3,500名逐年放寬到1萬人。   另外,政府將在五年內提撥近320億元,發展軟性電子、RFID(無線射頻)、奈米科技、智慧型機器人、智慧化車輛、智慧化居住空間等六大策略性生活科技產業,今年將先提撥58億元投資這些策略性產業上。此外 行政院科技顧問對於發展台灣成為全球奈米研發中心有高度期許,近日亦在行政院科技會報中確認,今年起到2010年的五年內,將投入200億元於奈米科技生活化相關產業上。這是行政院產業科技策略會議所訂六大策略性科技產業中,編列預算最大的一筆。

美國眾議院提出「深度偽造究責法案」

  隨著人工智慧(AI)視覺處理技術愈發進步,圖片及影像的篡改也更加普遍,甚至使人難以分辨其真偽,例如一款應用程式(App)-DeepNude便是運用此技術,將人穿著衣服的照片改作為裸體圖像;此種AI技術因對於社會及被偽造之當事人權益影響重大,進而引起美國立法者的極度重視。   日前維吉尼亞州為了遏止如DeepNude此類的應用程式,便於該州之《復仇式色情法》(Revenge porn law),擴大復仇式色情的涵蓋範圍,使其包括利用機器學習技術偽造他人照片或影像等深度偽造(Deepfake)行為。   但該深度偽造技術之應用,實際上並不僅侷限於情色領域,故美國紐約州眾議員伊薇特.克拉克(Yvette Clarke)於本年度(2019年)6月即提出了《深度偽造究責法案》(Defending Each and Every Person from False Appearances by Keeping Exploitation Subject to Accountability Act of 2019., DEEP FAKES Accountability Act.)草案,本草案令人關注之處除配合現今科技發展特性為規定外,另針對實務上曾衍生的爭議問題,特別將外國勢力或其代理人(foreign power or an agent thereof)介入美國國內政治行為,如意圖影響美國國內公共政策辯論(domestic public policy debate)、選舉或其他不得合法從事的行為等納入規範。   依該草案之內容,其所規範者包含視聽紀錄、視覺紀錄及錄音紀錄;意即任何人使用任何技術或設備製作假冒他人名義(false personation)的紀錄,並於網路或其他知識傳播管道發布者,應有浮水印、口頭陳述或是於文本中有簡要說明等揭露,以使他人得清楚知悉該紀錄並非真實,如行為人有違反該揭露規定並利用深度偽造1.意圖羞辱或騷擾(包含性內容);2.意圖造成暴力、身體傷害、煽動暴亂、外交衝突或干預選舉;3.詐欺犯罪等,將可處5年以下有期徒刑,或科或併科罰金。另若行為人修改或刪除他人揭露之資訊而有上述意圖或犯罪行為者,亦可處以同等罰責。

行動通信事業提供視訊服務之法律議題研究

歐盟COVID-19疫情位置資料和接觸追蹤工具使用指引

  歐洲資料保護委員會(European Data Protection Board, EDPD)於2020年4月24日公布COVID-19疫情期間使用位置資料和接觸追蹤工具指引文件(Guidelines 04/2020 on the use of location data and contact tracing tools in the context of the COVID-19 outbreak),就針對COVID-19疫情期間,歐盟成員國利用定位技術和接觸追蹤工具所引發的隱私問題提供相關指導。   EDPD強調,資料保護法規框架於設計時即具備一定彈性,因此,在控制疫情和限制基本人權與自由方面可取得衡平。在面對COVID-19疫情而需要處理個人資料時,應提升社會接受度,並確保有效實施個資保護措施。然而資料和技術雖可成為此次防疫重要的工具,但此次的資料利用鬆綁應僅限用於公共衛生措施。歐盟應指導成員國或相關機構,採取COVID-19相關應變措施時,若涉及處理個人資料,應遵守有效性、必要性、符合比例等原則。本次指引針對利用位置資料和接觸追蹤工具的特定兩種情況,闡明其利用條件和原則。情況一是使用位置資料建立病毒傳播模型,並進一步評估及研擬整體有效的限制措施;情況二是針對有接觸史病患進行追踪,目的是為通知確診病人或疑似個案以進行隔離,以便儘早切斷傳播鏈。   EDPB指出,GDPR和電子隱私保護指令(ePrivacy Directive)均有特別規定,允許各成員國及歐盟層級公共單位使用匿名及個人資料監控新冠病毒的傳播,並呼籲透過個人自願性安裝接觸追蹤工具。

TOP