美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/06/22)
引註此篇文章
你可能還會想看
德國聯邦資料保護暨資訊自由官聲明病人資料保護法恐違反GDPR

  德國聯邦資料保護暨資訊自由官(Der Bundesbeauftragte für den Datenschutz und die Informationsfreiheit,BfDI)Ulrich Kelber教授於2020年8月19日指出,2020年7月3日甫由德國議會通過的病人資料保護法(Gesetz zum Schutz elektronischer Patientendaten in der Telematikinfrastruktur; Patientendaten- Schutzgesetz, PDSG),恐違反歐盟一般資料保護規則(GDPR)。   該法規定自2021年起,健康保險業者必須向被保險人(病人),提供電子病歷(ePA)。而自2022年起,病人有權要求醫生將病人相關資料記錄於電子病歷,包括健檢結果、醫學報告或X光片、預防接種卡、孕婦手冊、兒童體檢手冊、牙科保健手冊等,而被保險人更換健康保險業者時,可要求移轉其電子病歷至新的健保公司。另外,2021年起將可透過手機,下載電子處方並至藥局領取處方藥。2022年1月1日起,將全面強制使用電子處方,病人將可透過智慧手機或平板電腦,決定他人對於電子病歷之近用權限。病人若無手機,可至健保公司查看電子病歷。依照規劃,目前電子病歷的使用仍採自願性。病人可決定保存或刪除哪些資料,以及誰可以近用該文件。自2023年起,被保險人可自願提供電子病歷資料作為研究用途,而因上述研究可處理病人資料之醫師、診所和藥劑師等,有義務確保其資料安全。   BfDI於立法過程中多次強調,在導入電子病歷使用時,病人必須可完全控制自己的資料。而該法規範僅提供病人使用部分設備,例如智慧手機或平板電腦,設定其電子病歷之存取權限,此意謂著將有一段空窗期,病人無法決定其電子病歷中各文件之存取權限。而對於電子病歷中,可否僅開放部分資料供瀏覽或存取,亦受到聯邦資料保護暨資訊自由官質疑。另外,對於無法或不想在手機或平板電腦上使用上述功能的人,本法並未進一步規定,亦即2022年起,上述病人為了能夠檢查或接受醫療,必須強迫病人控制其相關資料,但目前顯然尚缺乏相關配套。此外,以資料保護角度而言,目前電子病歷之認證程序有安全疑慮,尤其是未使用電子健康卡的替代驗證程序尚不夠嚴謹,因此命令相關單位應於2021年5月前完成改善。   電子病歷是對醫療保健改善的重要一步,因此相關健康資料保護需要符合GDPR規範水平。電子病歷雖已逐漸受到認可與重視,惟當前病人資料保護法恐無法完全保護病人資料安全。因此,BfDI將透過監管手段,確保健康保險公司不會因提供電子病歷而違反GDPR。

開放科學(open science)

  開放科學的基本理念,泛指在數位時代的背景下,各類型實驗測量機器獲得大量數據,以及網路行為累積的人類活動記錄,使各領域的研究活動趨向側重資料處理,結合分析工具後,以可閱讀的形式呈現並發表。   開放科學概念應用於行政與制度建立上,主要有兩個面向,其一為政府資助產出科學期刊論文等研究成果的開放取用(open access),意圖解決期刊雜誌訂閱費用過高,導致研究成果流通困難的問題,屬於早期開放科學關注的重點;其二則係使用官方研究資金進行研發時,於研究過程中取得的實驗、觀測及調查之研究資料開放運用,為近期政策與制度性倡議所聚焦,目的為使科學界、產業界以及一般社會大眾得以廣為接收並利用該些研究結果,令政府資金運用的一切成果均能充分回饋給國民與社會,期望藉由研究資料的公開,進一步深化該領域的研究進程、推展跨域研究或企業的產品與服務開發、以及創新活動。   舉例而言,日本內閣府於2018年提出的「統合創新戰略(統合イノベーション戦略)」第二章內,建構了國內開放科學下研究資料管理開放政策之基礎框架,關注伺服器空間內的研究資料保存與管理,與外國研究資料連動以建構巨量知識泉源,讓所有人得以廣泛活用該些研究資料,促成與加速跨領域與跨國境的新創。

新加坡次世代國家寬頻網路由Open Net得標

  新加坡資通訊發展局(Infocomm Development Authority, IDA)於2008年9月26日宣布,新加坡政府計畫投入7.5億新加坡幣資金建置之次世代國家寬頻網路(Next Generation National Broadband Network, NGNBN)由OpenNet公司得標,負責建置及維運次世代國家寬頻網路中靜態基礎設施(passive infrastructure)部分。   新加坡之次世代國家寬頻網路預計在2010年時提供60%家戶光纖網路接取服務,至2012年6月份時,則可提供新加坡95%家戶光纖網路接取服務。就寬頻接取速度而言,初期可提供100Mbps之頻寬,待建置完成後則預估可提供之頻寬達1Gbps。未來,OpenNet公司將可在2年內從新加坡電信(Sing Tel)取得該公司已建置之管道、交換器等基礎設備。   待網路建置完成後,OpenNet公司必須以住宅區光纖接取每月15元新加坡幣,非住宅光纖接取每月50元之價格,無差別地提供批發服務予網路接取服務提供業者,而不得自己提供接取服務予企業及一般家庭用戶。其次,為鼓勵建築所有人接取光纖網路,OpenNet公司在鋪設光纖網路進入建築時,將不收取任何裝置費用。預計自2013年起,在普及服務義務之要求下,OpenNet公司亦將持續負責將光纖網路接取至住宅、辦公大樓或其他建築物。換言之,OpenNet公司預計在2012年完成現有建築之光纖網路佈建,並於2013年起以履行普及服務義務之方式,持續光纖網路之建置工作。

美國發起「投資報酬計畫」(Return on Investment Initiative, ROI)全面檢視科研成果商業化法制

  川普總統在2018年4月發布「總統管理議程」(President’s Management Agenda)將國家科研成果商業化之發展視為「聯邦跨機關優先目標」(Cross-Agency Priority Goal, CAP Goal)。為維持美國全球科技創新領先地位,美國政府每年投資約1500億美元於各聯邦所屬大學與研究機構進行科技研究。美國國家標準與技術中心(NIST)與白宮科技政策辦公室(OSTP)聯合發起「投資報酬計畫」(Return on Investment Initiative, ROI),宗旨為釋放美國創新(Unleashing American Innovation),讓政府投資預算發揮科研補助之最大效益。   計畫目的包括:1.評估現行政府從事技術移轉指導原則,檢視應予以維持與待改革之處;2.吸引後期研發、商業化與先進製程的技轉投資,並降低法規阻礙;3.支持科研創新產官學合作模式與技轉機制;4.有效移除技轉阻礙以利加速技轉成效,並聚焦於國家重要產業發展的新興措施;5.評估聯邦政府資金運用指標成效;6.創造激勵學研機構提升技轉成效之誘因。   NIST調查指出,阻礙技轉發展之原因包括:1.技轉與智慧財產權協商所涉高額交易與時間成本;2.不同政府單位對法規之解釋、適用與實踐意見相歧;3.智慧財產權保護不足、技術授權使用限制與政府行使介入權(march-in rights)限制;4.公務員參與科技新創與衍生企業(spin-off)限制與利益衝突規範。此ROI計畫已於2018年7月30日完成各方意見徵詢,總計共104份。預計於2019年年初,做出完整分析報告與法制建議。

TOP