美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/03/16)
引註此篇文章
你可能還會想看
基因轉殖複製羊 創造生技產業的新利基

  台灣複製動物技術又邁向新的里程碑。行政院長謝長廷於 9月8日上午宣布台灣第一頭外帶基因轉殖複製羊「寶鈺」,成功繁殖下一代,並將人類第八凝血因子成功遺傳給下一代。   目前人類第八凝血因子市價每公克價值 290萬美元﹙相當於新台幣8千萬元﹚, 全球每年約需要 300公克,預計將創造8億至9億美元價值的市場,由於「寶鈺」母子成為凝血因子供應源,其產值及身價自然十分驚人。雖然距離商品化階段仍有一段距離,但此項技術於世界已屬領先。   「寶鈺」順利產下後代將創下我國體細胞製動物正常繁殖後代之首例,以及開創基因轉殖羊之下一代傳承母羊外源基因人類第八凝血因子之生物科技的突破,未來運用複製與基因轉殖科技,利用家畜泌乳系統作為生物反應器以生產醫藥蛋白,將可成為台灣生技產業之利基點。

Thomson Reuter宣佈全球前百大創新機構

  Thomson Reuters於11月14日當週,宣佈全球前100家最具創新機構,美國持續領先,而亞洲及歐洲分別屬第二及第三。然而,中國由於智慧財產保護及全球產品商品化實行因素,未能排入百大企業中。其名單結果來自於Thomson Reuters 2011全球百大創新專案,透過專屬方法分析專利資料及相關指標,來確認這些企業和機構於創新活動領先於全球之地位。   Thomson Reuters智慧財產解決方案事業部總裁David Brown表示:「創新使企業和國家成長繁榮,主要是為了追求克服經濟的衰退並達到競爭優勢」。   2011全球百大最具創新企業的市場資料,與2009年比較顯示,2010年百大企業增加了超過400,000工作機會,較前年提高3%,增加的比率高於同一期間的標準普爾(S&P)500企業的幅度。Brown表示:「全球百大創新組織創造的工作機會代表了創新為經濟成長具意義影響的指標」。除此之外,2011百大創新組織的市場價值加權平均收益較前一年度增加12.9%,而標準普爾500企業市場價值加權平均收益僅增加7.2%。   排名企業依地域分佈,其中40%來自為美國,31%為亞洲,29%為歐洲,亞洲主要為日本和南韓,前者占27%,後者占4%。歐洲主要區分為法國(11%),德國(4%),荷蘭(4%),列支敦斯登侯國(1%),瑞典(6%)及瑞士(3%)。法國為歐洲創新領導國。儘管大陸於專利申請數量佔領優先,但缺乏全球影響力及專利獲證比率之重要因素,故未進入前百大名單。   Thomson Reuters排名的方法,主要是以四大衡量基準:專利獲證比率(patent approval success rate),專利組合對於全球的影響(global reach of patent portfolio),對文獻引用的專利影響(patent influence in literature citation)及專利總數量(overall patent volume),選出前百大名單,如:Apple,Microsoft,Intel,LG和Motorola,全文內容可參考http://www.top100innovators.com/。

行政院發布公告「中小企業增僱員工薪資費用加成減除辦法」

FCC將電力線寬頻上網(BPL, Broadband over Power Line)服務分類為資訊服務

  FCC經過討論與投票,正式發佈命令將電力線寬頻上網服務分類為跨州資訊服務(interstate information service),而非電信服務,其他寬頻上網科技包括DSL、有線電纜線數據機寬頻上網亦被FCC分類為資訊服務。   過去幾年來,FCC一直大力支持電力線寬頻上網服務,期望電力線寬頻上網服務可以進入寬頻服務市場,與DSL和有線電視纜線數據機寬頻上網服務競爭,以增加寬頻服務市場之競爭,提高美國之寬頻普及率。而就此次所發佈之命令,FCC認為,將電力線寬頻上網分類為資訊服務將可使電力線寬頻上網服務受到較低的管制,有助於達成隨時隨地提供所有美國民眾寬頻接取之目標。其次,FCC在數位匯流時代之管制乃是期望能對於各種不同技術之寬頻接取平台給予一致的管制措施,並且對於相同之服務採取相同的管制方式。基於上述原因,FCC此次將電力線寬頻上網分類為資訊服務並不讓人感到意外。   FCC主席Kevin J. Martin進一步在其聲明中表示,雖然目前電力線寬頻上網人口並不多,然在2005年其成長率卻將近200%,顯見電力線寬頻上網服務之市場潛力不容忽視,將可幫助達成美國總統定下於2007年底前隨時隨地提供全國民眾寬頻網路接取之目標。

TOP