美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/05/01)
引註此篇文章
你可能還會想看
美國參議院通過《兒童網路隱私保護法》與《兒童網路安全法》,有望加強兒少網路安全保護力道

在數位時代,兒童及青少年長時間使用網際網路已成為生活常態,然而,兒少在高度使用社群媒體的同時,也透過演算法大量獲取諸如飲食失調、自殘等「有毒內容」(toxic content)。在享受網路便利性的同時,兒少也面臨遭受騷擾、霸凌,被迫轉學甚至輕生等困境,心理健康面臨危機。為解決前揭問題,美國參議院於2024年7月30日通過《兒童網路隱私保護法》(Children’s Online Privacy Protection Act, COPPA)修正法案及《兒童網路安全法》(Kids Online Safety Act, KOSA)之立法,加強兒少網路安全之保護。 COPPA早於1998年制定,並於2000年開始施行,該法案對於網路營運商蒐集未滿13歲兒童之個人資料相關隱私政策訂有規範,惟自訂定後迄今約25年,均未因應時代變遷做出調整,終於在本次會期提出修正草案。另KOSA之立法重點,則在於要求網路平台業者對兒童預設提供最高強度隱私設定,並建立控制措施,提供父母保護子女及認知到有害行為的機制,課予網路平台業者預防及減輕兒童陷於特定危險(如接收宣傳有毒內容之廣告)之義務等。此二法案經參議院投票通過後,合併為一案送交眾議院審核,重點說明如下: 1.將網路隱私保護主體擴張至未滿13歲之兒童及未滿17歲之青少年(下稱兒少),禁止網路平台業者在未經兒少使用者同意情況下,蒐集其個人資料。 2.禁止網路平台業者對兒少投放定向廣告(targeted advertising)。 3.為保護「合理可能會使用(reasonably likely to be)」網路平台的兒少,調整法案適用的「實際認知(actual knowledge)」標準,將適用範圍擴及至「合理可能被兒少使用(reasonably likely to be used)」的網路平台。 4.建立「清除鈕(eraser button)」機制,使兒少及其父母得以要求網路平台業者在技術可行情況下,刪除自兒少所蒐集之個人資料。 5.要求商務部(the Secretary of Commerce)於新法頒布後180日內,應成立並召集兒童網路安全會議(Kids Online Safety Council),進行包含識別網路平台對兒少造成危害之風險,提出相關評估、預防及減輕危害之建議措施及方法、進行與網路對兒少造成危害相關主題之研究等業務。 觀本次可謂美國對於兒少網路保護之重大進展,惟此法案後續是否能順利提請總統簽署成法,正式具約束效力,仍須持續關注眾議院未來動向。

英國資訊委員辦公室(ICO)發布指引以因應歐盟一般資料保護規則(GDPR)正式施行

  為因應歐盟一般資料保護規則(General Data Protection Regulation,簡稱歐盟GDPR)於2018年5月正式施行,英國資訊委員辦公室(Information Commissioner’s Office, 簡稱ICO)於2017年11月21日發布一般資料保護規則指引(guide to general data protection regulation)(簡稱一般資料保護規則指引)。   ICO所發布的一般資料保護規則指引,係用於解釋歐盟GDPR的各條規定,協助企業符合歐盟GDPR的各項要求,適用於企業中擔負資料保護義務責任者。ICO說明本指引文件致力於擴展與歐盟GDPR、ICO所制定公告之其他指引文件、歐盟第29條工作小組制定公告之相關指導文件的聯結。歐盟第29條工作小組係由歐盟各會員國的資料保護機構代表組成,而ICO即為英國派任於該工作小組之資料保護機構代表。   ICO發布的一般資料保護規則指引,內容簡述如下:本指引文件係在建構歐盟GDPR法規的架構,將反映歐盟GDPR未來的導引與如何呈現,本指引內容有歐盟GDPR的重要定義(如歐盟GDPR適用對象、歐盟GDPR所欲保謢之資料種類)、歐盟GDPR原則、個人資料處理、當事人同意、當事人權利介紹、資料保護、資料洩漏處理、未成年人保護等議題之參考要點;並針對部分議題,設計有簡易清單,供參閱者勾選確認。   英國ICO除採取對外發布一般資料保護規則指引外,另有制定數個線上工具,協助企業依其身分別(如資料管理者或資料處理者),選擇線上工具進行自我檢視是否符合歐盟GDPR要求,期以協助英國業者為今(2018)年5月GDPR正式施行,能作更充分的準備。

德國聯邦經濟與能源部提出《GAIA-X計畫》建立歐洲聯合雲端資料基礎建設

  2019年10月29日,德國聯邦經濟與能源部提出GAIA-X計畫(Project GAIA-X),蒐集德國聯邦政府、產業和科學界代表意見,與歐洲夥伴合作共創高性能、具競爭力、安全可信賴的歐洲聯合雲端資料基礎建設平台。GAIA-X計畫被視為歐洲開放、透明的雲端數位生態系統搖籃,用戶得以在可信任的環境中,提供整合安全的共享資料;透過雲端資料的跨國合作,為歐洲國家、企業和公民創造聯邦資訊共享環境、促進數位創新、建構全新商業模式。GAIA-X計畫將嚴格遵循資料保護、公開透明、真實性與可信賴性、數位主權(Digital Sovereignty)、自由市場與歐洲價值創造、系統模組化及互操作性(Modularity and Interoperability)、資料可用性等歐洲價值觀及原則。   GAIA-X計畫設定的目標包括:1.維護歐洲數位主權;2.減少對外國雲端供應鏈依賴;3.拓展歐洲雲端服務的國際市場;4.塑造創新數位生態系統。透過建立資料技術與數位經濟相關的基礎設施,將統一安全規格的雲端技術,落實在公共管理、衛生部門、企業和科研機構用戶與供應商間,形成開放數位資料共享的大平台。另外,GAIA-X計畫能進一步強化歐洲雲端服務供應商及歐洲商業模式的全球競爭力與規模,透過聯合雲端資料基礎建設,連接歐洲大小型企業、公部門、醫療及金融機構的伺服器,將全歐洲對於數位技術的多項投資串連在一起,積極發展AI人工智慧、智慧醫療、數位金融監管等新興產業,得以確保歐洲數位安全並提高雲端資料處理能力。

歐盟發布資料法案草案

  2022年2月23日,歐盟委員會(European Commission,以下簡稱委員會)公開資料法案草案(Data Act,以下簡稱草案),基於促進資料共享的目的,草案其中一個目標是使不同規模的企業、用戶在資料利用上有著更加平等的地位,內容包含確保用戶資料可攜性、打破資料存取限制、推動大型企業的資料共享,扶植微/小型企業等幾大方向。   以下就草案對大型企業要求的義務切入,說明草案所帶來的影響: 確保用戶訪問資料的權利: 基本資訊的告知,包含所蒐集資料性質以及訪問方式、使用資料的目的;用戶可在不同產品/服務提供者(以下簡稱提供者)之間切換,且提供者須有技術支援;提供者需要有合理技術,避免資料在未經授權被查閱。 對於提供者的限制: 提供者不得將所蒐集的資料用於取得用戶的經濟地位、資產、使用喜好;具守門人性質的企業不得採取獎勵措施以鼓勵用戶提供自其他提供者處所取得的資料;提供者提供資料可以收取補償,但必須以公平、合理、非歧視、透明的方式為之,需要提供補償計算方式與基礎。 對於微/小/中型企業的保護 提供者對於微/小型企業所收取的資料補償,不得超過提供資料所需的成本;提供者利用市場優勢,對於微/小/中型企業的不合理/公平的約定無效(如單方面免除一方的重大過失/故意行為的責任)。   該資料法案草案須經歐盟議會(European Parliament)通過後才會生效,目前草案規定只要有在歐盟提供物聯網產品或服務之企業,就須遵守草案內容規範,考量到網路服務可跨國提供服務,草案規範與進度仍值得國內企業關注。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

TOP