美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/05/13)
引註此篇文章
你可能還會想看
歐盟科技倫理委員會公布和成生物學ELSI意見

  歐盟科學與新科技倫理委員會(European Group on Ethics in Science and New Technologies, EGE)在今(2009)年11月18日公布合成生物學(Synthetic Biology)公布相關之倫理、法制與社會議題之意見,其中指出合成生物學具有可大幅降低生技藥品生產成本的極大潛力,但也可能帶來的風險,故應予注意。     對很多人來說,合成生物學是一個相當新穎的概念,經濟合作發展組織(Organisation for Economic Co-operation and Development , OECD)在其所公布的2030生物經濟發展議程中,將其列為最具有發展潛力的新興生物技術之一,近來更被歐美先進國家視為生物技術產業的未來重點發展方向。     根據OECD的定義,所謂合成生物學,是以工程方法為基礎,以改進微生物的新興領域,此技術使設計與建構新生物元件(part)、裝置(device)及系統(system),及對於既存的自然生物系統,使其更具有使用性。合成生物學的目的,在於藉由設計細胞系統,使其具備特定功能,從而消除浪費細胞能量之非期待的產物,以增進生物效率。目前合成生物學與市場較為接近的案例,乃一種將青蒿(sweet wormwood herb)、細菌與酵素等基因、分子路徑(molecular pathway)作結合,製造出可以生產治療瘧疾(malaria)的青蒿酸之細菌,此項開發成功突破過去僅能透過植物青蒿獲得,並產量有限的瓶頸。     正由於看好和成生物學的發展潛力,美國、英國與歐盟都開始對此項技術可能帶來的倫理、法制與社會爭議進行評估,歐盟EGE更公布意見以作為未來訂定法規範時的參考。EGE在意見中表示合成生物學使用於能源技術、生物製藥、化學工業或材料科學等都深具前景,故建議歐盟執委會應對此技術發展給予支持,並在歐盟架構計畫下,以產業利用為前提,給予經費的支持;然也必須重視其ELSI問題,包括使用合成生物產品的安全性、對環境的長期影響、惡意使用之防免、專利與公共財的爭議等,為了解決此等問題,其也要求各會員國必須針對合成生物學的各種議題,加強與民眾、利害關係人及社會的對話。由於我國一直將生技產業視為發展重點,合成生物學關係著生技產業未來發展,其未來發展實不容為我國所忽略。

何謂「循環經濟」?

  循環經濟(Circular Economy)不僅是資源回收或廢棄物利用,循環經濟強調的核心概念是創造資源利用的最大效益,有別於傳統經濟模式在資源利用上「開採、製造、使用、丟棄」的線性歷程,循環經濟加入了減少廢棄物產生、資源重覆與有效利用的概念,讓資源利用與產品的生成不再是有去無回的單向線性歷程。   循環經濟的概念能夠套用到所有產品的生命歷程當中,自產品設計、生產、物流、銷售、使用、回收,到投入新的產品生命歷程,以環型的資源利用歷程,加入各種資源再利用的方式,並盡可能減少真正廢棄物的生成。與此相關聯的包含新興科技如大數據、物聯網之應用,到創新商業模式的生成,都可以是循環經濟的一部分。   循環經濟所揭示的概念,是讓產業發展與環境保護能攜手同行,創造資源利用的最大效益。在歐盟「展望2020計畫」(Horizon 2020)當中,也同樣把循環經濟列為計畫的重要領域之一,循環經濟時代來臨所揭櫫的不僅僅是在資源回收、或是幾種廢棄物再利用的技術,而是對經濟體系當中資源運用歷程的重新形塑,與新興科技及商業模式創新均密不可分。

網路線上廣播電視正方興未艾

美國參議院通過對開放政府資料(Open Government Data)政策法制化具指標性意義之「數位責任與透明法」(Digital Accountability and Transparency Act,DATA Act)草案

  美國參議院於2013年4月10日一致通過「數位責任與透明法」(Digital Accountability and Transparency Act,DATA Act)草案,現在續行送往眾議院審查。DATA 法草案目的在於使政府支出資料更為透明公開,且以得再利用的方式提供。該草案若通過,將建立使用聯邦基金(Federal funds)做支出或受資助的政府機關單位或其他實體財務資料的標準;擴展USAspending.gov網站含括上述資料,並要求聯邦政府以電子格式,自動化、標準化的方式公佈財務管理及採購相關資料,使公私部門便於近用與進行分析。目前草案版本內文並無規定資料特定格式的資料標準,但可得確定的是必須為被廣泛接受、非專有、可搜尋,且獨立於平台使用之電腦可判讀格式,以及可得一致適用於各機關單位之聯邦得標廠商與接受政府補助之實體的特殊標誌。   曾協助草擬2011年DATA法草案之「資料透明聯盟」(Data Transparency Coalition)執行長Hudson Hollister表示,DATA法草案把結構性的資料模式應用於聯邦政府支出時,將前所未有的激發責任與支出情況間的關係;同時,也將聯邦支出資料(federal spending information)轉化為開放政府支出資料(open spending data),成為強化民主治理與激發創新的重要公共資源。然而,由於DATA法草案所涉及的機關眾多,主要包括商務部(DOC)、財政部(DOT)、總務管理局(GSA),與預算管理辦公室(OMB),該法案通過後是否能落實,絕大部分還是取決於白宮是否會要求聯邦政府機關單位完整且迅速的遵循法律的構成要件。

TOP