美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=66&tp=1 (最後瀏覽日:2026/04/11)
引註此篇文章
你可能還會想看
美國加密法案隨潮流再起

  緣起於2016年的加密法案(ENCRYPT Act),由於今年發生了臉書劍橋分析事件,以及歐盟GDPR的影響,本此法案再提的聲勢如浪潮襲來,不僅眾多議員附和,連企業(如:電子前線基金會Electronic Frontier Foundation,EFF)都予以支持。   加密法案的主要內容係以兩方面進行加密應用之保護, 各州州政府不得授權或要求產品或服務的製造商、開發商、銷售商或供應商,(A)設計或更改產品或服務中的安全功能,以供其進行監視或允許其進行實體搜索;(B)使其有能力解密或便於理解加密應用後的內容。 各州州政府不得禁止加密或類似安全功能的產品或服務,進行製造、銷售或租賃、提供銷售或租賃, 或向公眾提供覆蓋的產品或服務。此外,法案亦針對相關服務或產品的定義作了明確的說明。   本法案的主要提案者美國眾議員Ted Lieu指出,與加密或資料存取相關的問題,皆應在聯邦政府的層級進行討論,而就其本身電腦科學的專業,指出在各州間保有不同的加密應用執法標準,對資安、消費者、創新,以及執法本身都是不利的,引此本法案的推動旨在強化州際商業和經濟安全,以及網路安全問題,希望能對加密應用議題作全國性的討論,而不會損害使用者在過程中的安全性。

歐洲推動人體生物資料庫再利用沙盒

  非營利組織EIT Health於2020年2月展開公共人體生物資料庫(Public biobank)再利用之「數位沙盒」(Digital Sandbox)計畫的第二次公開徵求。參與的中小企業於提案後,可於2020年7月底前獲得通過與否的通知,並最快於2020年9月開始參與計畫。   EIT Health成立於2015年,是歐洲創新技術研究所(European Institute of Innovation and Technology)下的「知識與創新社群」(knowledge and innovation community)之一,主要資金來自歐盟「展望2020」(Horizon 2020)。有鑑於數位革命創造了大量極具研究價值的醫學生物資料,EIT Health於2019下半年提出公共人體生物資料庫再利用之「數位沙盒」計畫構想,該計劃主要目的在支持中小企業利用該生物資料實施創新服務或開發產品。   而依據歐盟一般資料保護規則(General Data Protection Regulation, GDPR)第89條規定,如果生物資料庫之利用係基於科學研究或公共利益之必要,可以在符合「適當的技術和組織措施」(Technical And Organisational Measures)之前提下得到豁免(exemptions)。依此條文,EIT Health之「數位沙盒」計畫參與者得不遵守GDPR第15條(資料主體之接近使用權)、第16條(更正權)、第18條(限制處理權)、第19條(關於更正或刪除個人資料或限制處理之通知義務)、第20條(資料可攜性權利)以及第21條(拒絕權)之規定。透過此計畫,有望幫助中小企業獲得公共人體生物資料庫、研究參與者(Sample holder)和登記冊的近用權限。此外,計畫亦提供最高35,000歐元的資金,以幫助中小型企業在開發創新產品時利用資料。

英國消費者保護法明確將數位內容商品消費納入規範,加重企業經營者責任

  英國在今年10月1日正式實施新的消費者保護法,除了明確規定30天內可以退還瑕疵商品外(舊法並無規定明確的期間),最主要重要變革在於納入數位內容商品消費的相關條款,以促進目前蓬勃發展的數位內容產業。   依照新法的規定,所謂的數位內容係指以數位形式(in digital form)所產製或提供之資料,據此包括了任何可以下載的商品以及串流服務,例如app、音樂、電影、遊戲以及電子書。其中關於消費者之保障如下: 一、在一定要件下有權利要求企業經營者修復或替換有瑕疵之數位內容商品; 二、若數位內容商品之瑕疵無法回復時,得要求企業經營者退還百分之百所支付的款項; 三、除此之外,若是數位內容商品因故而造成消費者的載具損害時,例如因所販售的軟體帶有電腦病毒而使消費者電腦中毒,企業經營者應負損害賠償責任。   根據英國娛樂產業公會(Entertainment Retailers Association),英國在去年(2014)有關數位內容商品(音樂、影片、遊戲)的消費額達到28億英鎊(約897億新台幣),英國舊消費者保護法並未針對數位內容商品有明確的規範,尤以近年數位內容商品的糾紛不斷(尤以遊戲為大宗),此次修法無疑是對常在網路購買數位商品的消費者一大保障。

南非提出個人資料保護法草案

  南非共和國議會在2013年8月22日通過了個人資料保護法修正案(PROTECTION OF PERSONAL INFORMATION BILL),該法案已由總統Jacob Zuma簽署正式成為法律,這也是南非首次全面性的個人資料保護立法 。   該部立法目的在於為促進個人資料的保護,建立全面性的個人資料保護原則。此次提出多項修正,包括 : 1. 設立獨立法人監察機構作為獨立且公正的執行個人資料保護法上職務及權力。 2. 公、私部門僅在特定情形時方可處理個人資料。 3. 蒐集個人資料必須提交予前述獨立法人監察機構。 4. 限制蒐集兒童個人資料,並將哲學、信仰、宗教,種族、民族血統,工會會員,政治觀點,健康,性生活或犯罪前科列為特種個人資料,並加以限制蒐集。 5. 需要處理個人資料者,必須落實保護措施,以保護個人資料為完整之狀態。 6. 發生個人資料外洩情形時,必須通知受影響的當事人以及前述獨立法人監察機構。 7. 要求公、私部門均需指定專責個人資料保護人員。 8. 透過自動傳呼裝置行銷需受到一定程度之限制。 9. 限制跨境傳輸時,限制傳輸收受方必須是至少具備與南非相同個人資料保護水準之區域。   南非之個人資料保護法通過後,對於消費者保障係又提升至另一層次,然該法之施行會對企業造成的衝擊,以及消費者是否可以在修法後獲得實質上的保障,仍待觀察。

TOP