美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/04/29)
引註此篇文章
你可能還會想看
美國能源部加強推動智慧電網之網路安全,並提供自我評估調查工具

  美國能源部於今年(2012)6月28日發布一套新的網路安全自我評估調查工具(Cybersecurity Self-Evaluation Survey Tool),以強化保護公共事業的業者避免遭受網路安全的攻擊,這套工具也是能源部為施行其於5月31日公布的網路安全能力成熟度模型(Cybersecurity Capability Maturity Model)的一部分,同時此模型的發展也是為了支持白宮的電力網路安全風險管理成熟度倡議( Electricity Subsector Cybersecurity Risk Management Maturity Initiative)。   網路安全成熟度模型的發展乃係由能源部與國土安全部共同領導,並且與業界、其他聯邦機構以及卡內基大學軟體工程研究所合作進行,該模型的四個目標在於:加強電力網路安全能力、使相關業者可以有效並持續設立網路安全能力的基準、分享知識、解決的方法與其他相關的參考資料、使業者得以排定對於改善網路安全的行動以及投資上的優先順序,以幫助業者發展並且評估他們的網路安全能力。   此次發佈的評估工具則是以問卷的方式,著重在情境式的認知與威脅及弱點的管理,而後能源部將針對自願提供評估結果的業者提供個案報告,幫助業者改善其網路安全能力,同時,能源部也建議業者,建立優先行動方案,以解決差距的問題,並且定期評估追蹤網路安全能力的改善進度,能源部也提醒業者注意網路威脅環境上與技術上的改變,以進行應變的評估。

歐盟發布《個資侵害通知範例指引》說明個資侵害案例解析以利個資事故因應

  歐洲資料保護委員會(European Data Protection Board, EDPB)於2021年1月18日發布《個資侵害通知範例指引》(Guidelines 01/2021 on Examples regarding Data Breach Notification)草案,並進行為期六週之公眾諮詢。該指引針對2017年10月所發布之《個資侵害通知指引》(Guidelines on Personal data breach notification under Regulation 2016/679)透過案例分析進行補充說明,對於資料控制者如何識別侵害類別以及評估風險提出更詳細的實務建議,協助資料控制者處理資料外洩及風險評估考量因素之認定。   個資侵害係指違反安全性規定而導致傳輸、儲存或以其他方式處理之個資,遭意外或非法破壞、遺失、變更、未獲授權之揭露或近用之情形,由於個資事故將對資料主體可能造成重大不利影響,該指引首先要求資料控制者進行侵害類別之辨識,依據2017年指引將個資侵害分為機密性侵害(confidentiality breach)、完整性侵害(integrity breach)以及可用性侵害(availability breach)。而資料控制者最重要的義務在於主動識別系統漏洞,評估侵害對資料主體權利所產生之風險,制定適當計畫及程序採取適當因應措施,確定侵害事件之問題根因及安全漏洞,加強員工認知培訓及制定操作手冊,並確實記錄各項侵害行為,以提升個資事故因應效率及降低時間延誤。   此外,該指引彙整自GDPR實施以來個資侵害通知具體案例,分為勒索軟體攻擊、資料外洩攻擊、內部人為風險、硬體設備或紙本檔案失竊、誤發郵件以及電子郵件內容外洩,共六大主題十八件案例,針對不同程度風險提供最典型的正確及錯誤作法,並提出資料控制者有關預防潛在攻擊及減輕影響之措施建議。

英國不贊同歐盟新視聽媒體服務指令

  英國傳播、電信、科技及媒體相關領域業者及團體於 2006 年 4 月聯合發表一份意見書,反對歐盟提出的新視聽媒體服務指令( Audiovisual Media Services Directive )草案。同時英國政府也正關注這項草案並與其他會員國進行討論。   自 2005 年 9 月起,歐盟開始針對電視無國界指令( Television without Frontiers Directive )的修正進行討論。歐盟考慮將該指令修改為視聽媒體服務指令,擴大其規範範圍,使其包括各種與電視相似( TV-like )的服務,並將所有視聽媒體服務區分成線性( linear )及非線性( no-linear )服務,分別給予不同程度的管制。   不過英國有許多業者及團體對於這項新指令的制訂深表不贊同,其認為: (1) 就非線性服務(例如隨選視訊)而言,目前既有法規以及業者自律規範已足以保障消費者; (2) 線性及非線性的分類方式可能不適宜作為法律定義的基礎; (3) 新指令將可能阻礙新進業者參與市場的意願,甚至導致投資者轉向其他國家發展。所以希望透過連署,要求歐盟重新檢視這項新指令。

中研院開發「奈米質譜檢測技術」1小時知道是否罹癌

  「蛋白質體學」是醫學研究的新領域,透過對「蛋白質變異」的研究來瞭解疾病的機制,現在已經可以成功診斷出許多疾病。不過,因為血液中跟疾病有關的「標記蛋白質」,含量往往很低;傳統「酵素免疫法」( ELISA )的檢測流程總得進行個大半天,往往造成時間的浪費。   中央研究院發表獨步全球的「磁性奈米粒子」質譜驗血技術,只要使用小學生使用的磁鐵,就可以迅速「大海撈針」,從血液中吸出和SARS、癌症、中風等病症相關的標記蛋白質,可以在一小時內診斷病情。這項研究成果正在申請國內外專利,臨床實驗、認證後,民眾未來只要多花幾百塊錢,就能夠享受這項最新的奈米科技。不管胃癌、乳癌或大腸癌,只要 ELISA 能夠檢測的項目,這套技術都可以更有效率地完成。不過因為「質譜儀」價格昂貴,臨床運用又需相關認證,普及化可能還得再等一段時間。

TOP