美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/09/16)
引註此篇文章
你可能還會想看
淺談美國行動健康服務應用程式之管理規範

美國國防部發布《國防部資訊技術發展戰略》,以促進IT變革並為未來奠定基礎

美國國防部(Department of Defense, DoD)於2024年6月25日發布「關鍵點:國防部資訊技術發展戰略」(Fulcrum:DoD Information Technology (IT) Advancement Strategy),將持續促進DoD之IT變革,並為未來奠定基礎。 本戰略描述作戰人員在推動IT方面應達成之目標與重要性,並列出提供聯合作戰IT能力、資訊網路與運算現代化、最佳化IT治理、栽培第一數位人力等四大目標(Line of Effort, LOE),簡述如下: (1)提供聯合作戰IT能力(Provide Joint Warfighting IT Capabilities):在現今不斷變化且充滿競爭的全球環境中,該目標以使用者為中心,提供具功能性、可擴增、永續且安全之IT功能。並以改善作戰人員可用資訊為重點,以利在快節奏、多領域(multi-domain)作戰中獲得決策與競爭優勢。 (2)資訊網路與運算現代化(Modernize Information Networks and Compute):該目標著重於迅速滿足任務與商務需求,利用卓越技術與以資料為中心的零信任(Zero Trust)資通安全方法,提供安全且具更快資料傳輸速度、更低延遲與高度彈性的現代化網路。 (3)最佳化IT治理(Optimize IT Governance):該目標將提高傳送效率、節省成本,且透過從治理到資料獲取系統的簡化政策,以轉變治理制定更好的決策,包括使用強大資料功能。 (4)栽培頂尖的數位人才(Cultivate a Premier Digital Workforce):該目標將確保作戰人員為新興技術之布署做好準備,並持續致力於識別、招募、發展並留住最佳數位人才。其擴展DoD網路人力框架(DoD Cyber Workforce Framework, DCWF),著重於更廣義的數位人力,包括資料、人工智慧、軟體工程的工作角色。

美國FCC公布低功率電視強制數位轉換時程

  美國聯邦通訊委員會(Federal Communications Commission)於2011年7月15日公布第二份報告與命令(Second Report and Order),針對低功率電視(low power television, 簡稱LPTV)數位轉換時程進行規範,並預訂於2015年9月1日強制關閉低功率類比電視訊號的放送。   美國國會已於2009年6月12日強制關閉類比電視訊號的放送,但此規定僅適用於全功率電視台,並未及於低功率電視。所謂的低功率電視,為FCC於1984年針對在地性質的、小型的社區電視服務所創設的類型;這些社區有可能地處鄉野,但也有可能為大都會區內的個別社區。   FCC在這份命令中同時要求現行使用700Mhz頻段(channels 52-69)的類比與數位低功率電視台應在2011年9月1日前提交轉換規劃(displacement applications),並於2011年12月31日停止使用700Mhz頻段。

三菱電機子公司三菱電機informationsystems公司所研發的圖書館系統發生個資外洩事件

  三菱電機informationsystems公司所研發用於圖書館的系統封包MELIL/CS造成引進系統的圖書館發生個人資訊外洩與Web館藏檢索系統當機的系統障礙。從2010年7月到9月因系統障礙,總共有3間圖書館,共2971人的姓名、出生日期、住址、電話及圖書名稱等個人資料外洩。   有關個人資料外洩的經過,是因為三菱電機informationsystems公司在研發MELIL/CS系統時,先在引進系統的圖書館進行系統測試,於測試之後再將系統程式帶回公司修改,此時就不知情的將存有個人資料的程式帶回公司,也把這些資料登錄到產品的原始碼上。因此將進行測試的2間圖書館使用人約210人的個人資料登錄於該產品的原始碼上。 但發生個資外洩的直接原因更在於負責三菱電機informationsystems公司產品運作、維修的銷售伙伴千代田興產公司,該公司所設置的伺服器完全沒有設定權限區分,甚至不需密碼就可以連接該公司伺服器存取資料。因此發生第三人進入該公司伺服器,下載3個引進該系統圖書館約3000人的個人資料。   另外對於Web館藏檢索系統當機的發生,是因為圖書館使用人為了獲取圖書館新增加館藏圖書的資訊,以自動蒐集資訊程式直接存取館藏資料庫所發生。三菱電機informationsystems公司當初在設定網路連接圖書館系統,是以一次存取可以連接10分鐘的方式,所以只要以連接頻率高的機械性存取,只要超過資料庫的同時連接數的設定數值,就會發生存取障礙。   對於三菱電機informationsystems公司系統設計失當及千代田興產公司未設定伺服器存取權限所造成個人資料外洩事件,因為這兩家公司都是屬於財團法人日本情報處理開發協會(JIPDEC)的取得隱私標章企業,所以由JIPDEC依據隱私標章營運要領中的「有關賦予隱私標章規約」第14條規定,各處以由2011年1月起3個月的隱私標章停權處分。

TOP