美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/04/22)
引註此篇文章
你可能還會想看
德國擬提出風險資本參與法(Wagniskapitalbeteiligungsgesetz)協助創新與科技公司籌資

  德國聯合內閣最近就研議中的風險資本參與法(Wagniskapitalbeteiligungsgesetzes, WBG)之規範重點達成共識;聯邦經濟及技術部部長隨即對外表示,本法對於德國年輕的創新型企業意義非凡,蓋風險資本乃是創新與科技公司籌資的重要管道,WBG之制定是希望能創設成一個可以吸引國際風險資本在德國投資的法規環境。   根據協議內容,WBG以資本額在2千萬歐元以下、設立年限十年以下的公司為適用對象,據此,不僅是設立初期的公司可以籌募到風險資本,處在成長期需要大量資金的公司亦將可以獲得風險資本的挹注。此外,WBG也將規定,提供風險資本的創投公司(Wagniskapitalgesellschaften)未來將被視為資產管理者,其對於創投基金(Beteiligungsfond)提供資產管理服務之行為,將不會被課徵營業稅。   根據德國政府規劃,從法制面鼓勵創新與科技公司之設立,應採三軌並行:首先是創設吸引國際風險資金的投資環境,使創新與科技公司更容易取得所需資金,此即WBG之立法目的所在;其次,未來將進一步藉由開放投資管道,確保中小企業籌資之機會,因此有必要修正現行之投資企業法(Gesetz über Unternehmensbeteiligungsgesellschaften);最後將進一步制定投資風險規制法(Gesetzes zur Begrenzung der mit Finanzinvestitionen verbundenen Risiken),管控投資風險。透過上述措施,可望為創新與科技公司之設立奠定良善之基礎,增加此類型公司設立的數目。   德國內閣預計將在今(2007年)夏正式提出WBG之草案,與此同時,也將配套提出投資風險規制法之規範重點,並一併修正投資企業法,若WBG可順利經國會審議通過,最快將可自明(2008)年1月1日起生效適用。

英國人體基因資料庫(Biobank)開放給研究者使用

  為了改善下一世代的健康,資料來源係來自於半數英國人口的英國人類基因資料庫於今年三月底正式開放給所有研究者使用。該資料庫資訊包含二萬六千筆糖尿病患者、五萬筆關節疾病患者、四萬一千筆不飲酒者,以及一萬一千筆心臟病患者的健康資訊。   英國人體基因資料庫係利用四年的時間招募來自蘇格蘭、英格蘭與威爾斯地區,年紀介於四十到六十九歲的自願捐贈者,就其採集檢體、身高、體重、體脂肪、手握力、骨頭密度、心肺功能、血壓、醫療病例、生活習慣、記憶、飲食、生理與心理情狀、聽力與視力等資訊所集結的健康資料庫,其可堪稱是世界上積累大規模人類健康資訊的來源之一。   欲使用英國人體基因資料庫的申請者,不論其係來自英國或是海外,亦不論申請者係來自學界、產業界、公益團體,或是由政府資助的研究機關(機構)、團體或個人,在本於欲從事的研究係基於健康相關與確保公眾利益的前提之下,均可向該資料庫的管理單位提出使用申請。該申請必須於網路上提出,且欲申請使用之研究必須受到英國人類基因資料庫小組的嚴謹審查,且該審查過程亦會受到英國人體基因資料庫委員會轄下的 Access Sub-Committee所監督。除此之外,具有獨立超然特徵的英國人類基因資料庫倫理與管理會議(UK Biobank Ethics and Governance Council)亦將會監督整個審查系統的運作和流程。   英國人類基因資料庫將允許研究者,在基於保障公眾利益的前提下所進行的健康相關研究,來使用該資料庫內的所有資源。該資料庫期許研究者能夠發現特殊疾病發生於人類個體上的差異性,以進而研發出一套新的治療與防範措施。除此之外,該資料庫的資源利用亦期待研究者能在具有慢性、疼痛與生命威脅性特徵的疾病上,例如癌症、心臟疾病、中風、糖尿病、老人痴呆、憂鬱症、關節炎、眼睛、骨頭和肌肉等疾病,能夠就其發生原因、預防方法與治療方式找出新的診斷和解決方法。

國際產業創新合作策略實例 – 歐盟之歐洲科技與創新機構(EIT)

美國政府強化推動「更佳建築倡議」計畫

  美國總統歐巴馬於2011年2月3日,根據美國振興方案(Recovery Act)預算案,宣布推動「更佳建築倡議」(Better Buildings Initiative)計畫,這個倡議計畫承諾透過一系列的獎勵,促進私人企業在建築節能改善上進行投資,並以到2020年要讓商業建築的能源效率提高20%做為目標。   在今年的6月19日,美國能源部與商業部共同宣布選定三個「卓越建築營運中心」(Centers for Building Operations Excellence),由美國能源部和商務部國家標準與技術研究院的製造業擴展夥伴關係(National Institute of Standards and Technologies’ Manufacturing Extension Partnership,NIST MEP)聯合資助130萬美元成立此三個中心,乃為推動「更佳建築倡議」計畫的相關行動之一,希望藉由三個中心的運作,來達成提高能源效率20%,並且期望一年可以減少約400億美元的能源支出。   「卓越建築營運中心」將會與各大學、地方社區、技術學院、貿易協會,以及能源部的國家實驗室合作,建立培訓計劃,提供商業建築專業人士所需要的關鍵技能,以提升建築效率,同時降低了能源的浪費和節省資金。   此三個中心分別位於加州、賓州以及紐約州,提供機會讓當前和未來有可能參與潔淨能源經濟的人,學習寶貴的技能,並且著重在於開發課程以及試點培訓方案,以培育優良的建築的經營者、管理者與能源服務供應商,進行商業、工業與教育建築物上的調整與能源管理。

TOP