美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/11/20)
引註此篇文章
你可能還會想看
日本通過法案 明確列出無人機禁止飛行範圍

  有鑑於今年4月底,一架攜帶具有放射性物質的小型無人機墜毀在日本首相官邸的屋頂上,對元首維安構成威脅,日本政府為此決定加強無人機管控。日本國會並於9月通過民用航空法(Civil Aeronautics Law)修正案,明確列出無人機禁止飛行範圍,違反者最高將可處以50萬日圓(約4,200美元)以下罰鍰,但因災害或自然事故發生而利用無人機進行救援、搜索行動不在規範範圍。   法案主要修正內容為,特定空域未經申請不可飛行,例如禁止無人機飛越人口密集的住宅區及機場周邊區域,人口密集地區,以每平方公里人口4,000人為界,因此東京都23區和主要區域城市,將會列為無人機禁航區。另外,在舉行慶祝活動及展覽等會吸引大批群眾暫時聚集的地區上空,無人機亦不可飛行。   然而,通過申請後的飛行區域,仍須遵守幾項要求,如無人機須於日間目視範圍內飛行、無人機與人員及建築物必需保持一定距離,以及未經政府許可,夜間不可使用無人機,並禁止無人機裝載爆炸裝置等會造成人員傷害或財物損失的危險物品。除此之外,並定義「無人機是透過遠程遙控或自動駕駛儀器飛行,且無人機作為機器不能搭載乘客」,但輕量型玩具飛機不包含在內。修訂後的法案將於今年年底前開始施行。   此外,下議院目前仍審議有關禁止無人機靠近重要設施,包含首相官邸、國會、皇宮、核電廠之草案。

日本總務省公布「2006年版資訊通信白皮書」

  日本資訊通信領域主管機關「總務省」 7 月 4 日 公布「 2006 年版資訊通信白皮書」。本年度白皮書除按照慣例闡述資訊通信政策之實施現況(第 2 章)以及今後推動方向(第 3 章)外,更本諸過去數年「 u 化社會」( ubiquitous network society )願景之研析成果與發展脈絡,將 u 化社會之願景與現實生活的技術或應用發展趨勢兩相比較,指出於逐步邁向該等願景的同時,社會整體經濟結構的特性也開始有所變化。   基於前開變化主係肇因於技術變遷、應用普及、逐步邁向 u 化社會願景之故,本年度白皮書第 1 章乃將之稱為「 u 化經濟」( ubiquitous economy ),並認為自宏觀角度而言,資通產業對於國家經濟實力之貢獻有增無減;另自微觀角度而言,個別用戶的重要性將會更加凸顯,資訊的流通傳遞也會更有效率,而本諸知識迅速累積分享的結果,生產力同樣可望大幅提昇。今後亦當本諸此等認知,規劃能令個別用戶放心使用之安全環境,弭平基礎建設未能完全普及之數位落差現象,預先具體指明可能發生之爭議課題,妥善探究適合 u 化社會願景實現之因應對策,以利全體國民均能充分享用 u 化社會所能帶來的福祉。

英國資訊委員辦公室表示個人資料之處理應遵循GDPR,公務機關也不例外

  自西元2017年1月以來,英國稅務海關總署(Her Majesty's Revenue and Customs, HMRC)開始要求英國民眾使用線上語音方式進行身分認證,而民眾的聲音檔案亦被儲存至英國稅務海關總署的語音資料庫內。英國資訊委員辦公室(Information Commissioner's Office, ICO)深入調查後發現英國稅務海關總署的語音身分認證系統存在下列兩種違法情形: 未能向民眾充分揭露、告知民眾其語音、聲紋等生物識別資料如何被處理等資訊。 蒐集民眾的生物識別資料時,未能給予民眾自由行使同意或拒絕權利的機會。   英國資訊委員辦公室認為英國稅務海關總署前開情形已經違反了歐盟一般資料保護規則(General Data Protection Regulation, GDPR),根據歐盟一般資料保護規則,英國稅務海關總署在蒐集、處理或利用民眾個人資料時,必須合法、公正及透明,並應取得民眾的明確同意。英國資訊委員辦公室後續將要求英國稅務海關總署應刪除違法蒐集的生物識別資料。   本次英國資訊委員辦公室的執法行動是基於2018年5月25日生效的歐盟一般資料保護規則與英國2018年資料保護法(The Data Protection Act 2018),英國資訊委員辦公室強調創新的數位服務雖有助於民眾的生活更輕鬆,但絕不能以犧牲民眾的隱私為代價,同時也隱約透露著:「沒有一個組織(包含政府機關)能夠凌駕於法律之上。」。

美國華府行政管理與預算辦公室頒布Open Data政策備忘錄之執行指導綱要

  美國華府行政管理與預算辦公室(Office of Management and Budget)頒布執行M-13-13 Open Data政策備忘錄之指導綱要(Supplemental Guidance on the Implementation of M-13-13 “Open Data Policy-Managing Information as an Asset”),目的在於澄清問題及提供執行細節以協助政府部門實施執行命令第13642號及M-13-13 Open Data政策備忘錄。透過實踐本指導綱要,各政府部門將能確保用以盤點、管理及開放資料的基礎設施之完備,進而開創因開放資料所產生之價值。   資料在依據本綱要進行盤點時,主管機關必須一併予以分級,其近用層級(Access Levels),區分為公開(Public)、限閱(Restricted Public)、非公開資料(Non-public)。資料公開前會經過完整之隱私權保護及資訊安全事項檢視,無違反相關法律和政策規範者,始釋出予大眾。   針對備忘錄之五項執行要求,本指導綱要即分為五項對應指導,介紹如下: 1.建立及維運大型資料盤點目錄:目的在使聯邦政府部門建立清楚且完整之資料資產目錄,而在製作盤點目錄後,必須持續改進、維護資料,並以擴展、豐富、開放三種面向來評估檢視盤點目錄之成熟度。 2.建立及維運公開資料清單:為增進資料查詢之容易度及可用性,各部門須篩選上述資料盤點目錄中屬於公開層級或可以被公開之資料,並建立及發布公開資料清單,作為盤點目錄之子目錄,使民眾得以知悉現有公開資料,及接續地將被公開之資料。各部門基於裁量權,亦可決定是否列入限閱或非公開資料資產,使民眾能知悉該筆資料之存在以及近用該資料之程序。 3.建立用戶參與資料釋出程序:此程序將提供資料用戶參與促進資料釋出及認定釋出之優先順序。由關鍵的資料用戶來幫助聯邦政府認定資料資產價值,而被認定最高價值之資料將優先、快速釋出。 4.當資料無法釋出時,須以文件證明:政府部門必須確認資料經過完整之隱私權保護及資訊安全事項檢視,無違反相關法律和政策規範者,才能公開資料。當認定資料涉及違反上述規範時,則須以文件證明其諮詢該政府部門中所設之法律顧問單位(Office of General Counsel)或同類單位後之決定,再依據三種資料近用資層級予以分類。 5.指導綱要中要求列出各部門應該負責管理資訊之窗口。   原定11月1日為完備上述基礎設施建置之最後期限,然為因應美國自10月1日起聯邦政府關門,特寬限延期至11月30日;在11月30日後,各部門將於每季報告執行進展,而部門開放資料之績效將被列為跨部門優先追蹤對象。

TOP