美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/11/18)
引註此篇文章
你可能還會想看
OECD發布「促進人工智慧風險管理互通性的通用指引」研究報告

經濟合作發展組織(Organisation for Economic Co-operation and Development,下稱OECD)於2023年11月公布「促進AI風險管理互通性的通用指引」(Common Guideposts To Promote Interoperability In AI Risk Management)研究報告(下稱「報告」),為2023年2月「高階AI風險管理互通框架」(High-Level AI Risk Management Interoperability Framework,下稱「互通框架」)之延伸研究。 報告中主要說明「互通框架」的四個主要步驟,並與國際主要AI風險管理框架和標準的風險管理流程進行比較分析。首先,「互通框架」的四個步驟分別為: 1. 「定義」AI風險管理範圍、環境脈絡與標準; 2. 「評估」風險的可能性與危害程度; 3. 「處理」風險,以停止、減輕或預防傷害; 4.「治理」風險管理流程,包括透過持續的監督、審查、記錄、溝通與諮詢、各參與者的角色和責任分配、建立問責制等作法,打造組織內部的風險管理文化。 其次,本報告指出,目前國際主要AI風險管理框架大致上與OECD「互通框架」的四個主要步驟一致,然因涵蓋範圍有別,框架間難免存在差異,最大差異在於「治理」功能融入框架結構的設計、其細項功能、以及術語等方面,惟此些差異並不影響各框架與OECD「互通框架」的一致性。 未來OECD也將基於上述研究,建立AI風險管理的線上互動工具,用以協助各界比較各種AI風險管理框架,並瀏覽多種風險管理的落實方法、工具和實踐方式。OECD的努力或許能促進全球AI治理的一致性,進而減輕企業的合規負擔,其後續發展值得持續追蹤觀察。

日本內閣決議通過航空法修正案,增列小型無人機管制規範

歐盟通過「資料保存指令」

  「資料保存指令」( Directive on the retention of data ,下稱本指令)已於 2006 年 2 月 21 日 經歐盟部長理事會( European Council of Minister )批可而正式生效。但部分歐盟國家,如愛爾蘭( Irish )與斯洛伐克( Slovak )仍認為,由於資料保存對於歐盟民眾權益影響甚鉅,故應透過更嚴格的立法程序,如由歐盟部長理事會( European Council of Minister )全體一致通過「決定」( Decision ),而不應透過議會表決後再交由理事會批可指令( Directive )的方式生效。   本指令要求網路服務業者( Internet service providers, ISPs )與固定( fixed-line )及行動 (Mobile) 網路業者必須要保存客戶通聯之通聯日期、地點、通話時間等通聯資料等,保存期限從 6 個月到 2 年不等。而除了保存之責任以外,上述業者還必須要確保其保存之資料可隨時配合執法單位之調查,提供執法單位進行嚴重犯罪之調查與恐怖分子調查之參考與利用。   國際隱私權組織( Privacy International )表示,本指令的通過將對歐盟地區民眾之人權造成不可磨滅之影響。此外,歐盟地區之電信公司與 ISPs 則表示,本指令實施後,若政府單位未給予任何的補助,將大量增加業者在資料儲存之費用,進而影響市場競爭。   本指令最遲將於公布後隔年開始實施。

英國推動農場資料認證計畫,首重資料生成、保護與維護管理

英國Farm Data Principles組織(下稱FDP,前身為英國農場資料委員會(The British Farm Data Council)),在2024年2月26日英國農業科學技術跨黨派小組(All Party Parliamentary Group for Science & Technology in Agriculture)於西敏寺辦理的會議,正式宣告農場資料認證計畫,FDP強調因目前欠缺資料治理原則,導致缺乏信任等資料使用障礙,並指出若未事先約定資料如何使用等,將致無法明確保護資料。截至目前為止,已經有7個組織取得完全(Full)或臨時(Provisional)認證。 農場資料認證計畫包含四大核心要求,分別為: 1.「您的資料是您的資料(YOUR DATA IS YOUR DATA)」:如強調應由資料生成者擁有及管控資料,且未經其許可,不得接觸、儲存、共享或銷售資料,以及應明確說明參與資料處理的對象等。 2.「通過認證的組織清楚資料共享的價值和好處(CERTIFIED ORGANISATIONS ARE CLEAR ABOUT THE VALUE AND BENEFIT OF DATA SHARING)」:如應針對資料使用範圍及方式,提供明確說明,以及必須解釋如何整合資料及其衍生的價值等。 3.「通過認證的組織須確保資料安全(CERTIFIED ORGANISATIONS KEEP YOUR DATA SAFE)」:如為維護資料安全,應採取適當的資料安全標準及規劃資料外洩處理流程等。 4.「通過認證的組織須努力使資料變得簡單(CERTIFIED ORGANISATIONS STRIVE TO MAKE DATA EASY)」:如提供資料相關教育訓練,以及確保組織能夠回應請求或投訴等。 為因應農業資料於研發過程中的資料應用風險,資策會科法所創意智財中心協助農業部研擬「智慧農業科技研發資料源頭查檢說明手冊」,並於2024年3月14日正式發布,相關手冊所附之資料管理查檢表,可協助智農科技研發者針對資料取得、使用及管理,事先進行整體性規劃,並與不同的資料提供者及合作對象就資料權利義務約定清楚。其中針對資料管理,更依照資料生成、保護及維護的標準化作業流程,設計各階段相應的管控要項,確保農業資料持續處於有效管理的狀態,以降低資料潛在風險,促進資料流通應用。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

TOP