美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/04/23)
引註此篇文章
你可能還會想看
美國最高法院明確放寬專利權耗盡原則之適用範圍

  美國最高法院於2017年5月30日針對Impression Products v. Lexmark International作出最終裁決,說明當專利權人銷售專利產品時,無論在美國境內或境外,專利權人不能再以美國專利法來限制該專利產品,一經銷售後該產品專利權已經耗盡。   本案起因為美國印表機研發製造大廠Lexmark推出兩項碳粉匣方案:原價碳粉匣,無任何轉售限制;以及優惠碳粉匣,並附帶「一次性使用」(single use)及「不得轉售」(no resale)限制條款,消費者不得自行填充再利用、再轉售或轉讓給原廠以外的第三方。本案專利權人Lexmark控告同業Impression侵害其權利(違反一次性使用及不得轉售),被告Impression則主張兩項碳粉匣產品的專利權在美國境內的首次銷售後就已耗盡了。該案爭點包含:(一)專利產品在境外首次授權或銷售,是否導致專利權耗盡;(二)專利權人訂立售後限制條款,可否用以追究當事人違反限制條款責任?   地院引述最高法院過去兩個判例(Quanta案及Kirtsaeng案),裁定Lexmark專利產品因首次授權銷售情形而權利耗盡。原告Lexmark提出上訴,CAFC則認為專利產品在境外銷售情形,不會導致專利權人在境內專利權耗盡,且在首次銷售時給的授權,已經合法限制再銷售或再使用,故Impression仍構成專利侵權。   最終,最高法院推翻CAFC見解,認為無論是專利權人直接銷售,或是對專利產品加諸任何限制,專利權人決定銷售產品時,該產品相關的專利權就會耗盡。另外最高法院亦指出,當專利權人透過契約與購買者約定,限制其使用或轉售的權利,其在契約法上或許有效,但在專利侵權訴訟中則沒有用。本案後,最高法院確立採國際耗盡原則,說明專利權人在全球任何地方,產品經銷售後即權利耗盡,無論專利權人是否有任何售後限制。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

英國人體基因資料庫(Biobank)開放給研究者使用

  為了改善下一世代的健康,資料來源係來自於半數英國人口的英國人類基因資料庫於今年三月底正式開放給所有研究者使用。該資料庫資訊包含二萬六千筆糖尿病患者、五萬筆關節疾病患者、四萬一千筆不飲酒者,以及一萬一千筆心臟病患者的健康資訊。   英國人體基因資料庫係利用四年的時間招募來自蘇格蘭、英格蘭與威爾斯地區,年紀介於四十到六十九歲的自願捐贈者,就其採集檢體、身高、體重、體脂肪、手握力、骨頭密度、心肺功能、血壓、醫療病例、生活習慣、記憶、飲食、生理與心理情狀、聽力與視力等資訊所集結的健康資料庫,其可堪稱是世界上積累大規模人類健康資訊的來源之一。   欲使用英國人體基因資料庫的申請者,不論其係來自英國或是海外,亦不論申請者係來自學界、產業界、公益團體,或是由政府資助的研究機關(機構)、團體或個人,在本於欲從事的研究係基於健康相關與確保公眾利益的前提之下,均可向該資料庫的管理單位提出使用申請。該申請必須於網路上提出,且欲申請使用之研究必須受到英國人類基因資料庫小組的嚴謹審查,且該審查過程亦會受到英國人體基因資料庫委員會轄下的 Access Sub-Committee所監督。除此之外,具有獨立超然特徵的英國人類基因資料庫倫理與管理會議(UK Biobank Ethics and Governance Council)亦將會監督整個審查系統的運作和流程。   英國人類基因資料庫將允許研究者,在基於保障公眾利益的前提下所進行的健康相關研究,來使用該資料庫內的所有資源。該資料庫期許研究者能夠發現特殊疾病發生於人類個體上的差異性,以進而研發出一套新的治療與防範措施。除此之外,該資料庫的資源利用亦期待研究者能在具有慢性、疼痛與生命威脅性特徵的疾病上,例如癌症、心臟疾病、中風、糖尿病、老人痴呆、憂鬱症、關節炎、眼睛、骨頭和肌肉等疾病,能夠就其發生原因、預防方法與治療方式找出新的診斷和解決方法。

澳洲P2P業者Kazaa面臨存亡的最後通牒

澳洲雪梨聯邦法院於本月 24 日對分散式 P2P 業者 Kazaa 發出命令,要求 Kazaa 營運商 Sharman Networks 必須在 10 日內( 12 月 5 日之前),在其提供下載的軟體中加入關鍵字過濾技術( keyword filter system ),否則應立即停止營運。市場人士普遍認為 Kazaa 暫時停止營運的可能性相當地高。   源起於去年底澳洲當地唱片業者控告 Kazaa 一案,今年 9 月 5 日澳洲聯邦法院認定 Kazaa 營運商 Sharman Networks 構成著作權侵害,除判決唱片業者勝訴外,法院並判定 Kazaa 必須在 2 個月內修改其軟體程式,加入相關過濾技術,以避免使用者傳輸違法音樂檔案;另一方面,判決賦予唱片業界得提交 3000 個關鍵字名單 ( 包括了曲目及歌手姓名 ) 要求 Kazaa 加以過濾的權利,該名單並得每兩週加以更新。   直至本月 24 日, Kazaa 仍表示其無法控制高達 100 萬使用者的個人行為,拒絕修改其提供下載的 P2P 軟體,導致聯邦法院不得不下達最後通牒。 Kazaa 營運商 Sharman Networks 雖已提起上訴,但在現時關鍵字過濾技術實施不易之下,澳洲 Kazaa 恐將步上已於本月 7 日關閉的 Grokster 後塵。

從英國 NHS 國家 IT 計畫看電子病歷之推動:以病患個人資訊隱私保護為中心

TOP