美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/04/07)
引註此篇文章
你可能還會想看
歐盟批准Google併購DoubleClick公司

  Google 在2007年4月買下DoubleClick之後,競標落敗的微軟連同其他Google對手,控告Google和DoubleClick的結合,恐怕有壟斷之嫌,因此引來FTC和歐盟執委會的調查。   Google此前已經於去年12月首先取得美國聯邦貿易委員會的併購核準。歐盟執行委員會(EUropean Commission;EC)則於日前宣布通過無條件批准Google以31億美元收購線上廣告業者DoubleClick的購併案。   另據CNN Money網站報導,歐盟執委會通過雙方合併,主要基於沒有重大證據顯示,雙方的結合將會削弱微軟(Microsoft)、雅虎(Yahoo!)、美國線上(AOL)等競爭對手的生存空間;其次,Google和DoubleClick彼此並不存在競爭關係,雙方合併對線上廣告市場的競爭,不至於帶來負面的衝擊。   不過,提倡保護個人隱私的組織反對該收購交易,他們認為Google與DoubleClick合併之後,使兩家公司更容易獲取消費者個人資訊。但是歐盟執委會表示個人隱私權問題並非是否同意兩家公司合併的考量事項。   在得到歐盟方面正式核準之後,Google將會正式採取行動併購DoubleClick,將其線上廣告的經營,從文字廣告拓展至顯示廣告(display advertisement)領域。但在這塊線上廣告市場的步步進逼,勢必會刺激微軟加速買下雅虎的決心。

蘋果電腦扼殺了Android平台的多點觸控功能

  眾所矚目的Google phone終於上市了,然而,讓許多人好奇的是,為什麼Google phone所搭載的Android平台不支援多點觸控(multitouch)?   現在,我們終於知道Google略過多點觸控功能的可能原因了。 根據Android團隊成員的說法,以多點觸控聞名的iPhone的製造者蘋果電腦要求Google不得導入此應用,而Google答應了。該團隊成員進一步表示,Google的決定讓他們鬆了一口氣。在此之前,Palm因為宣布將在新的Pre phone中採用多點觸控技術而面臨蘋果電腦空前的官司壓力。即使蘋果電腦最後決定不對Palm採取法律行動,這兩家公司之間的關係也很難好轉。顯然,Google不想破壞與蘋果電腦的關係 。   蘋果電腦上個月剛取得一個名稱為「觸控螢幕裝置、方法以及應用啟發式原理來確認使用者指令的圖形化使用者介面」的專利,其專利號為7,479,949。此專利在2008年04月11日提出申請,其內容涵蓋了應用在iPhone上的多點觸控功能以及在iPhone上所使用的指令手勢。   在獲得該專利權的隔天,蘋果電腦營運長Tim Cook公開警告iPhone的競爭對手「我們不會放任蘋果的智慧財產權被剽竊,且絕對會拿出所有可動用的武器作反擊」。

馬來西亞通過修正《個人資料保護法》

馬來西亞個人資料保護委員會(Personal Data Protection commissioner,下稱個資保護委員會)於2023年度收受與個人資料(下稱個資)濫用、外洩相關申訴案件數量達779件,成長數量令人憂心。為確保對於個資保護規範能與國際標準發展同步,並加強個資遭洩漏時即時採取應變措施等相關政策,以解決前述憂心狀況,數位部(Ministry of Digital)於2024年7月10日提出《個人資料保護法》(Personal Data Protection Act 2010, PDPA)修正案,並於同年7月16日經下議院(Dewan Rakyat,馬來語直譯)表決通過。 本次PDPA修正重點包含: 1.設立個資保護官(data protection officer, DPO)制度:強制要求蒐集、處理、利用個資之資料控管者(data controller),及受資料控管者委託而實質處理個資之資料處理者(data processor),均需指派個資保護官。 2.擴張對於敏感性個資(sensitive personal data)定義:與個人身體、生理或行為特徵相關之技術處理所生個資(即生物辨識資料),皆屬之。 3.制訂個資外洩通報制度:強制要求發生個資外洩時須通報個資保護委員會,以及可能受到任何重大損害之個資當事人,惟對於「重大損害」尚未有明確定義。 4.導入資料可攜性:在遵守技術可行性(technical feasibility)與資料格式相容性(data format compatibility)之情境下,允許資料控管者之間在當事人要求下進行資料傳輸。 5.資料處理者的合規遵循義務:舊法僅要求資料控管者須遵守PDPA所規定的安全原則(security principle);新法則擴及要求資料處理者亦有安全原則之合規遵循義務。 6.提高罰則:舊法對於違反個資保護原則者,最高僅得處300,000馬幣和/或2年監禁;新法提高罰則最高得處1,000,000馬幣和/或最高3年監禁。 7.跨境傳輸規範修正:原則允許資料控管者將個資傳輸至馬來西亞以外,惟應採取適當措施確認及確保資料接收方保護個資之水準與馬來西亞個資法程度相當;並將跨境白名單制度調整為黑名單制度,不得傳輸至政府公布黑名單所列地區。 馬來西亞數位部本次修正PDPA,彰顯該國政府對個資保護之重視,惟關於任命個資保護官資格要求、個資外洩通報重大程度標準等細部規範,則仍須待修正案通過後,經個資保護委員會發布相關指引再行釐清。

歐盟執委會發布歐洲資料戰略

  歐盟執委會於今(2020)年2月19日發布「歐洲資料戰略」(A European strategy for data),宣示繼前一期「歐洲數位單一市場」戰略的基礎下,將於新一期戰略建立一個真正的歐洲資料空間及資料單一市場,以解鎖尚未被利用的個人資料及非個人資料,使資料能夠在歐盟內部、跨部門和跨領域自由流動,並使所有公部門、公民,或新創、中小、大企業都可存取資料及利用。   本戰略就此提出四大戰略行動,重點如下: 1、資料存取(Data Access)和利用的跨部門治理框架 (1)2020年第四季提出「共同歐洲資料空間」(common European data spaces)的治理立法框架:A.加強共同資料空間及其他跨公私部門資料利用方式的治理機制;B.於GDPR基礎下,基於科學研究目的利用敏感個資時,能較容易決定可以由誰如何利用哪些資料;以及使個人更容易同意其個資的公益目的利用。 (2)2021年第一季通過開放資料指令(Directive (EU) 2019/1024)的高價值資料集「施行細則/執行法」(implementing acts)。 (3)2021年提出《資料法》(Data Act)草案促進企業對政府的資料共享;以及解決現今企業間資料共享常遇到的障礙,例如多方合作建置資料時(如物聯網),釐清各方的資料使用權限及各自的法律責任。 2、推動方式:投資歐洲資料空間重大項目,以加強歐洲處理和使用資料的基礎設施及能力、加強資料互通性等。 3、加強個人資料管理:在GDPR第20條的可攜權(portability right)基礎下,於《資料法》賦權個人更能控制自己被政府及企業所掌握的個資,並使個人能自己決定由誰存取和利用。另外,將由數位歐洲計畫開發「個人資料空間」。 4、促進戰略性產業領域及公益領域的共同歐洲資料空間:歐盟執委會將協助建立包含「共同歐洲工業(製造)資料空間」(Common European industrial (manufacturing) data space)在內的9種領域共同歐洲資料空間,本戰略亦於附件介紹各領域的資料共享基礎背景。   另外,雖非戰略主軸,但文件內容及新聞稿皆提及,執委會將於2020年第四季提出《數位服務法》(Digital Services Act),為所有企業進入資料單一市場建立明確的規範、審查現有政策框架、加強線上平台的責任及保護基本權利。   總而言之,本戰略所欲推展的各項行動,將促進公民、企業組織、研究人員和公部門能更輕易的獲得和利用彼此的資料,進而確保歐盟成為資料驅動社會的模範和領導者。

TOP