美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/06/09)
引註此篇文章
你可能還會想看
美國商務部取消對來自敏感國家之外國科學家使用部分研究設備之限制

  911 恐怖攻擊以來,美國持續加強國土安全保護,而為保障國家安全及科技競爭力,美國商務部( US Department of Commerce )原本打算制定安全管制規定, 對來自敏感國家之外國科學家, 限制其 使用部分的實驗研究設備。所謂敏感國家( countries of concern ),包括巴基斯坦、印度、俄羅斯及中國,來自於這些國家的科學研究人員若要在美國境內的從事特定實驗研究,因而需要使用特定設施設備者(主要是可用於軍事用途者),不論研究設施設備是屬於聯邦或民間所有,在開始操作、進行安裝、維護與修繕等之前,必須先向美國政府提出申請始可近用。   現行美國有關技術管制規定主要係針對敏感科技的出口,商務部自 2004 年起,即打算推動修正此等規定,進一步將部分可用於軍事用途之研究設施設備予以立法管制,從美國政府所公布的管制清單來看,其涵蓋範圍甚廣,從化學、雷射到細菌培養等各領域之研究設施設備,均涵蓋在內,故商務部此項修法計畫一經公開,立即震撼外界,除學術界及產業界強烈外抨擊,就連聯邦實驗室也大表反對。反對意見多認為,預計的修正規定將會破壞大學校園中之開放精神,影響科學自由的研究環境;而研究設施設備近用之事前許可制,亦將造成學界與業界的負擔;甚至可能阻礙未來大學或業界延攬外國科技人才參與研究計畫之進行,長期而言,實將會戕害美國的國際競爭力。   面對各界反對聲浪,為避免降低研究型企業之生產力,美國商務部在今年 5 月底宣布取消原來的立法管制計畫,不過,商務部將會召集產學研各界專家,組成一個十二人的委員會,持續就實驗室安全管制的問題交換意見,期能獲致更有效之解決之道。

美國將重新檢討網域管理政策

  美國商業部將於 2006 年 9 月底前舉行針對網域管理的公聽會,檢討美國政府目前對於網域名稱的管理作為,並討論是否將取消對網域名稱的限制與管理。美國這項舉動是回應部分國家對於美國現行網域管理政策的不滿。   目前美國政府主要透過對「網域名稱與位址管理機構」( the Internet Corporation for Assigned Names and Numbers ; IC ANN )的控制,來管理所有”.com” 的網域,並擁有否決網域名稱申請案的權力。美國對於網域的控制,引起部分國家的政府及評論家的批評,認為美國政府對網域的過度干預,已經影響了全球通訊及商業運作的基礎。舉例而言,由於美國政府強烈反對,使專用色情網域”.xxx”申請案遭 ICANN 否決一事,升高了歐盟執委會對美國政府過渡干預網域管理的不滿。   為平衡國際輿論壓力,美國商業部預定於 2006 年 9 月底前召開公聽會,討論往後網域管理的程序及方式,並計畫於 9 月 30 日改變目前對 ICANN 的管理策略。

美國微軟、Yahoo和Google違反網路賭博規定遭處鉅額罰款

  美國司法部(Department of Justice)指控微軟、Yahoo和Google三家入口及搜尋網站業者,於1997到2007年間,違反禁止網路賭博之規定,接受非法賭博業者委託刊登線上廣告。   美國司法部認為此三家公司除違反聯邦線上博奕法(Federal Wire Wager Act)禁止賭博之規定以外,另違反聯邦博奕課稅條例,以及各州與地方有關禁止賭博之規定。為此,美國國稅局(Internal Revenue Service)和聯邦調查局亦介入此一案件之調查,並與司法部共同認為微軟、Yahoo和Google等著名入口網站對於社會具有重大影響力,刊登線上賭博廣告之行為不僅違反法規事實明確,對於間接促進相關線上賭博產業之興盛與賭博行為之猖獗亦應負社會責任。   在法院進行實質審理前,三家公司已於2007年12月與司法部達成和解協議,同意支付3150萬美元之罰金(折合台幣約10億元),並配合線上公益及宣導賭博違法等義務。

歐盟執委會規劃制訂新世代智慧電網規範,及研擬共通性評估要項工具

  歐盟執委會(European Commission)於去(2011)年10月公布一份「建立共通性智慧讀表功能要項及影響因素(Set of Common Functional Requirements of the Smart Meter)」調查報告,對於各會員國發出問券,調查對於建設智慧讀表(智慧電網SmartGrid系統首要基礎)之經濟評估要項,藉此瞭解各國於推動建立,所考量之優先因素及差異性,並藉此彙整出「成本效益評估項目(Cost Benefit Assessments , CBAs)」,建立歐盟層級之共通性功能要項,以利後續其他會員國援用導入之政策工具。   以及,歐盟執委會所屬聯合研究中心(Joint Research Centre , JRC),於去(2011)年7月亦公布一份「歐盟智慧電網關鍵挑戰及發展趨勢(Smart Grids: New Study Highlights Key Challenges and Trends in the EU)」研究報告,指出歐盟各會員國現今已投入219個智慧電網計畫,總經費達5.5兆歐元以上,並設立展示(Showcases)網站,供外界瞭解推動進度;此研究報告並指出,要健全智慧電網發展,除了大規模投入經費資源建設外,更應重視各會員國對於原既有能源管制規範之體檢審視;該報告呼籲各會員國應積極建立新世代智慧電網規範,因為於現有管制規範下,常導向各國推動實務,多僅強調可降低系統運作支出成本,而不是直接朝向升級為智慧性整合體系而發展,於現有監管模式(Current Regulatory Models)下,縱使眾多投資於智慧電網,亦無法出現突破性發展。該報告並倡議,新世代管理規範,至少應建立服務平台運作原則及遵守規範,並導引效益之公平分享。   此外,歐盟執委會於去(2011)年4月間,關於智慧電網發展重要法制政策之關鍵議題,亦曾發布「智慧電網創新發展(Smart Grids: From Innovation to Deployment)」政策文件,其中明列發展智慧電網,首要應重視資料隱私及安全性議題(Addressing data privacy and security issues),亦必須建立共通性標準(Developing common European Smart Grids standards),及提供優惠政策措施,並且應確保消費者資料接取(Access)權利,保證維持公開競爭市場並鼓勵增進消費者利益之各項發展。

TOP