美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/02/02)
引註此篇文章
你可能還會想看
歐盟執委會關切奈米科技對於食品安全之影響

  近年來,奈米科技已多方使用於食品製造業中,舉凡食品的殺菌、保存或食材的包裝等,皆為適例。然而,隨著奈米科技的影響層面逐漸擴大,無論係其功用的研發或風險的防範,仍有進一步研究之必要。   歐盟執委會(European Commission)根據2007年3月其新興健康風險科學委員會(SCENIHR)所提出之報告,認為應加強認識奈米科技對於食品安全之影響,遂邀請歐洲食品安全局(EFSA)就該領域提出科學看法。至2008年10月14日,歐洲食品安全局科學委員會即公布「奈米科技對於食品和飼料所引起之潛在風險(Potential Risks Arising from Nanoscience and Nanotechnology on Food and Feed Safety)」草擬意見,其內容係說明奈米科技應用於食品製造業之多種樣態、人為奈米材料(engineered nano materials,ENM)於食品或飼料製造過程中所產生之作用,以及判斷現有之風險評估方式能否合於需要。   該草擬意見歸結數項結論如下: (1) 因人為奈米材料之體積微小且具有高表面積,於人體吸收時較一般物質更容易產生反應。 (2) 關於化學物質於奈米尺寸下將產生何種變化,迄今無法做出令人滿意之科學論斷,因此就安全性與相關數據的累積,仍需要個別檢視。 (3) 建議應針對風險評估一事設置國際基準,且該基準可同時適用於人為奈米材料及一般化學物質。 (4) 食品與飼料中含有人為奈米材料者,於風險評估時應包括該材料特性之敘述,並進行毒理研究分析,使資訊蒐集更為完備。   由於人為奈米材料不確定之事項甚多,因此需要更豐富的資料加以釐清;而該草擬意見除提供歐盟執委會評估現行法制、研究可行措施外,亦向公眾廣徵回應;民眾可於2008年12月1日前,提供歐洲食品安全局相關科學證據或意見,待該局進行彙整後,將與歐盟會員國商討後續事宜。

能源稅課徵 經濟部爭取三年緩衝

  財政部日前對外公布「能源稅條例」修正草案,由於課徵能源稅對產業的衝擊層面甚大,行政院最近邀集財經等部會及環保署協商「能源稅條例」草案。   經濟部認為能源稅開徵應在能源價格合理化後再實施,且需採漸進式方式開徵,並主張應仿歐盟做法,給予業者至少二至三年的緩衝期,即 98 年之後再開徵。同時經濟部也建議參照歐美國家給予差別稅率,燃料油及煤炭能源稅,應給予工業部門較低稅率或免稅,以降低對產業的衝擊,否則製造業生產流程使用到煤及天然氣的業者都將受衝擊。另外,經濟部也應主張若要課徵能源稅,應同步取消平板玻璃、橡膠輪胎、電器及飲料等四類貨物稅及汽燃費,並取消空汙費與土汙費,以避免雙重課稅。   能源稅的直接用意應是藉由租稅手段提高能源使用效益,間接才是充實國庫。我國許多能源相對便宜,以致部分中小企業在欠缺嚴謹工程管理的情況下,石油、水電等資源的使用或有浪費情形,因此祭出能源稅,重點應擺在提高能源使用的邊際效益,同時,政府亦應提出有效配套,以兼顧產業的國際競爭力。

昇陽進入開放原始碼 Solaris 時代

  昇陽公司本月十四日把 500 多萬行 Solaris 核心 (kernel) 的原始碼張貼在 OpenSolaris 網站上。不過,一些原始碼元件,像是安裝程式與管理工具,因為仍在逐行檢視以免專利侵權問題,稍後才會推出。   Solaris 是使用率相當廣的一種 Unix 衍生版本,在一九九○年代末期網路泡沫時期大行其道,但後來隨開原碼作業系統 Linux 竄起而式微。同時,微軟的 Windows 作業系統,也蠶食著昇陽的市占率。為了讓 Solaris 成為開放原始碼軟體,昇陽積極拉攏軟體開發人員,軟體開發人數增多,可能引來更多的使用者、更多的合作夥伴,以及更多的軟體開發者。然而,要與氣勢正旺的 Linux 競爭,並非易事。 Solaris 開發工程僅傾昇陽一家公司之力,但 Linux 幕後卻有廣大的開發人員社群支持。   Quandt Analytics 分析師 Stacey Quandt 說,與外部程式設計師分享權力,是昇陽必須通過的考驗。對昇陽來說,真正的挑戰是,昇陽是否真能容納局外人貢獻的修補程式,而且不叫昇陽經驗老到的工程師加以改寫。   OpenSolaris 是昇陽自行研發的專屬計畫,但不表示一定會失敗。 IBM 即曾經以 Eclipse 程式設計工具為中心,建立起活力十足的開原碼社群,就是成功的例子。昇陽雖來不及按原訂計畫在二○○四年推出 OpenSolaris ,但已推動一些配套措施,包括在今年一月發布稱為 DTrace 的元件,提供詳細的效能分析;吸引一百五十位外部程式設計人員參與 OpenSolaris 測試計畫;並成立由五人組成的社群顧問委員會,其中兩席是昇陽的代表。

政府將Linux認證納入採購需求

  一直以來負責政府部門資訊軟體採購的中信局,均要求廠商出示所謂 " 原廠証明 ",但是自由軟體並無法取得 " 原廠証明 ",以致難以打入公部門。今年中信局第一季發佈的政府採購需求中,首度在個人電腦部份列出具備 Linux 相容測試以及中文化認證的產品。未來要做政府生意的非 Windows-based 桌面電腦軟硬體廠商,都必須取得 Linux 相容測試認證。這是政府為了擴大 Linux 軟硬體使用而推動 Linux 相容測試,第一次明文要求, Linux-based PC 必須要具備 Linux 相容性認證。Linux 相容認證列入 IT 產品採購規格中,將因政府需求的驅動而有助於刺激國內廠商參與測試、取得認證的意願,使推動 Linux 的力量更為聚焦。   眾多 Linux 版本 OS、應用彼此相容、以及中文化不足,是國內企業使用與佈署特別是 Linux 桌面軟體造成障礙。三年前工業局推動成立 Linux 相容測試中心,希望能降低 Linux 版本相容性問題,並在今年開始推動中文化認證。   過去 Linux 相容測試免費提供廠商產品測試服務,並沒有於政府需求銜接,導致在促進 Linux 產品取得認證過於發散,此次中信局僅在個人電腦部份列出需求,也有助於收斂投測產品種類。 Linux 相容測試中心,也將在本月頒發第一批「 Linux 軟硬體相容性基本驗證規範」及「基本中文化實用性驗證」的產品。   Linux 相容測試中心交由台北市電腦公會(TCA)負責的 Linux 促進會執行

TOP