美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/12/04)
引註此篇文章
你可能還會想看
FCC將關閉北卡地區之類比無線電視

  完成700MHz頻段之頻譜拍賣後,美國通訊傳播委員會(Federal Communications Commission, FCC)亦開始積極著手準備頻譜回收工作,以期能夠順利在2009年2月17日全面關閉類比無線電視訊號,完成無線電視數位化及頻譜回收。   為能提早發現關閉類比無線電視訊號可能帶來之問題或影響,FCC於2008年5月8日宣布將在2008年9月8日中午12時正式關閉北卡威明頓(Wilmington)地區之類比無線電視訊號。在此次關閉類比無線電視訊號過程中,FCC將和無線電視、有線電視等相關業者及協會密切合作,以解決過程中發生的任何問題。FCC之所以選擇威明頓地區率先關閉無線類比電視訊號,主要原因之一在於威明頓地區的四大電視網均已完成數位化工作,並自願提前關閉類比無線電視訊號。   針對於FCC此一測試計畫,美國國家廣播電視協會(National Association of Broadcasters, NAB)亦發表聲明表示支持與配合。除此之外,NAB同時表示此次試驗的結果必須被審慎檢驗,並用於決定如何關閉全國的類比無線電視訊號。NAB希望有關單位透過此次試驗之結果,決定明年全面關閉類比無線電視訊號時,聯邦、州及地方政府應如何合作、數位機上盒供應、有線電視及衛星電視業者之配合等相關問題。

開放生物技術淺析

歐盟執委會公佈2016年歐洲數位進度報告

  歐盟執委會(The European Commission)於05月23日釋出一份關於歐洲數位化進展的報告。   歐洲數位進度報告(Europe's Digital Progress Report ,EDPR)首先以2016年02月公佈的「數位經濟社會指標」(Digital Economy and Society Index ,DESI) 為基礎,分析歐盟會員國的數位發展情況。數位公共服務(Digital Public Services)方面,報告指出, 當前各國政府數位化服務越來越複雜,歐盟現在的挑戰是要讓52%目前還偏好實體互動的民眾進入數位世界。此外,這份報告也提出一些歐盟會員國中數位公共服務還不錯的進度,像是義大利跟匈牙利的eID,奧地利的OpenData,比利時跟羅馬尼亞的協同電子政府 (collaborative eGovernment),以及斯洛伐克電子政府的雲端方案等。   其次,歐盟執委會調查了各國的數位改革方案實施情況,並公佈歐盟會員國與世界上其他15個國家的「數位表現國際指標」完整報告 (full report on a new international index, iDESI),「數位表現指標」指的是連結性(connectivity)、數位能力( digital skills)、網路使用(use of Internet)、企業數位科技整合( Integration of Digital Technology by businesses),以及數位公共服務(Digital Public Services)。這份數據顯示,歐盟領先國(瑞典、丹麥以及芬蘭)在國際上也是處於領先地位,緊接在韓國以及美國之後,但其他歐盟會員國仍有很長一段路要追趕。   最後,歐盟執委會同時發布了「歐洲電子通訊量表研究」( Eurobarometer study on e-communications),這份研究發現使用網路通訊的歐洲民眾逐漸增多,且行動網路普及率大幅增加。   歐盟官方表示,未來將會根據這幾份調查報告提出具體建議,盼能改善多數會員國的數位表現並有益於其經濟與社會,持續朝創造歐盟「數位單一市場」(Digital Single Market)的目標邁進。

美國新能源法案預定於2010年前興建新核電廠

  美國總統布希於本( 8 )月 8 日簽署能源法案,法案目的除減少對國外能源依賴外,另亦授權興建一座新核能發電廠。布希政府希望於 2010 年前開始建造核能廠。   儘管核能爭議大,但現今國際油價已飆高達每桶 63 美元,在美國參眾兩院日前通過、布希總統今簽署的能源法案中,同意興建的新核電廠,是美國自 1979 年三哩島事件以來,第 1 座預定興建的核能廠。   能源法案的通過,被視為是布希政府一大勝利,也是相關利益團體石油公司的勝利。布希自 2001 年上台即大力鼓吹此法案,經 4 年多爭議,眾參院才分別在 7 月 28 、 30 日通過。   除新建核電廠外,能源法案內容還包括:准許在海岸探勘石油與天然氣,這項鬆綁引起環保人士質疑;提供美國能源公司超 10 年 145 億美元的減稅優惠,這項優惠讓華府輿論質疑,減稅是「肥了石油公司,苦了消費者與納稅人」;另外,鼓勵開發新的潔淨能源、再生能源,提供 18 億美元的獎助,這項具有環保意義、找尋替代能源的條文,也被質疑資助少得可憐。

TOP