美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/06/28)
引註此篇文章
你可能還會想看
美國加州公共事業委員會提出自動駕駛車輛試點計畫

  加州公共事業委員會(California Public Utilities Commission, CPUC)提出自駕車試點計畫,允許在未有配置人類駕駛之情況下測試自駕車,此次計畫包含兩個試點項目,將於5月被五人委員會審核,並決定是否批准。   第一個試點項目允許參與廠商之自駕車上路測試,並須配置經培訓的人類駕駛於自駕車內,以應付隨時的突發狀況;第二個試點項目則允許無人駕駛之自駕車上路測試,惟在無人類駕駛隨車之情況,必須符合加州機動車輛管理局(Department of Motor Vehicles, DMV)之規定,如遠端監控車輛狀態及操作,以保障乘客安全。   參與廠商必須定期向CPUC及DMV繳交營運報告,包含測試期間車輛碰撞(collision)及解除自動駕駛(disengagement)次數。   此次試點計畫已開放廠商申請,科技大廠及叫車服務公司如Google、Tesla、Uber以及Lyft等目前亦已正進行自駕車之設計與測試。若此提案通過,CPUC將進一步規劃自駕車載客服務之相關辦法,使自駕車測試之法制更臻完善。

英政府推動開源碼計劃

  由英國政府所資助成立的一項計畫,希望透過開放原始碼廠商目錄及程式碼資料庫的建立等措施,加速公家單位對開放原始碼軟體的採用。這項名為「開放原始碼學院」( Open Source Academy )的計畫,是由副首相辦公室( Office of the Deputy Prime Minister )的電子創新投資計畫所贊助,預計在本月內將正式宣佈。   參與該計畫的開放原始碼協會( Open Source Consortium )執行總監表示,英國的公家機關在開放原始碼的採用上落後於歐洲各國,而這項計畫將改變目前的現況。地方政府已經可以透過網站開始分享程式碼,例如「地方政府軟體協會」( Local Authority Software Consortium )的網站。這項計畫裡的其他專案還包括了政府機構的入口網站計畫,可藉以尋找開放原始碼供應商的資訊;以及開放原始碼顧問的專業鑑定模式。

FCC將推動Gigabit城市

  美國被視為科技最為先進的國家,但從平均連網速度落後於荷蘭、韓國,可發現美國寬頻基礎建設並未想像中出色。因此,為了加速高速寬頻服務的發展,FCC主席不僅於2010年推動「寬頻加速計畫」(Broadband Acceleration Initiative)外,在今(2013)年1月28日,主席Julius Genachowsk更宣布推動「挑戰Gigabit城市」(Gigabit City Challenge)計畫,使民眾能享有更好的網路品質。    「挑戰Gigabit城市」規畫於2015年全國50個州均至少有1個具備Gigabit服務的社區,且使既有高速固網頻寬提升100倍。此外,FCC希望藉由「關鍵多數」(Critical Mass),使業者具有獲利之基礎,促進新興應用與服務發展,以帶動美國經濟成長與強化國際競爭力。   目前,FCC並未就此計畫編列基礎網路建設預算,但將設置兩個單位,促進「挑戰Gigabit城市」之目標達成:   1.線上資訊網(Online Clearinghouse):蒐集與宣傳如何可降低成本與增加網路速度之資訊,以促進寬頻網路規劃(含Gigabit社區)。   2.發展中心(workshops):發展中心將成立於Gigabit 社區,並邀請寬頻提供商與州、市之領袖共同評估Gigabit 社區的成立門檻、增加投資與降低成本,以提供FCC相關資訊。   現階段,美國共有14個州、共40個社區有Gigabit連接服務,包含Google去(2012)年底於坎薩斯城(Kansas City)建設、以及西雅圖在翡翠城(Emerald City)設置試點區,可見Gigabit寬頻將逐漸成為美國趨勢。FCC預計Gigabit服務推動後,將可解決新興產業,例如遠距醫療、遠距教學、高畫質影音與線上服務,受限於連網速度外,亦可紓緩美國失業率與財政困境。

USPTO 宣佈將加速綠色科技專利案件審查

  美國專利商標局USPTO日前宣佈一項專為綠色科技(Green Technologies)而設的前導計劃(Pilot Program),透過這項計劃期望能將相關溫室氣體排減、節約能源等申請案加速其審查、公開及訴願程序,至少縮短流程一年。目前平均來說從申請至最終結果出爐需耗時40個月。這項消息係由美國商務部長駱家輝(Gary Locke)所宣佈,普遍被認為是為了呼應於哥本哈根舉行的聯合國氣候變化框架公約第15次締約方會議。   符合條件的申請案必須於2009年12月8日前送件,而且必須是尚未收到第一次官方通知(First Office Action,包括限縮專利範圍的通知),另外申請人還必須於2010年12月8日前以電子檔提交「特別審查程序」(petition to make special)並符合下列要求: ●必須是正式發明申請案(non provisional utility application),不適用於再領證(reissue) 與再審查(re-examine) 專利 ●必須是上述前導計劃中所包括的約79項專利項目之一 ●申請案必須不包含超過3個獨立項與20個專利申請範圍 ●如欲提早公告需附上申請書 (petition) ●如果USPTO判定為超過一項的發明,申請人必須同意用電話做出選擇   雖然USPTO預估目前有25,000件審核中的專利符合加速審理的資格,但他們預計只受理最初的3000件申請以評估這項計劃的效益與工作量。至於有意提出申請者則需要審慎評估快速審查之外的其他利弊,例如提早公告,限縮的運用範圍與專利申請範圍等。這項計劃公佈的同時USPTO的局長 David Kappos 亦承諾將定期對外更新該計劃的進度,並將成立一個網上的交流平台讓大眾可以對此計劃提出意見。

TOP