美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2025/12/18)
引註此篇文章
你可能還會想看
英國資訊委員辦公室(Information Commissioner’s Office,ICO)認定英國電子零售業者Carphone Warehouse違反《Data Protection Act 1998》資料保護法

  英國電子零售業者Carphone Warehouse在2015年遭到網路攻擊,造成逾300萬客戶及1000名員工的資料外洩,外洩的資料包括客戶的姓名、地址、電話號碼、出生日期、婚姻狀況及1.8萬名客戶的金融卡資訊。   英國資訊委員辦公室(Information Commissioner’s Office,ICO)認為涉及之個人資料嚴重影響個人隱私,使得個人資料有被誤用的風險。ICO進一步調查後並發現,駭客僅是透過有效的登入憑證,就能藉由WordPress軟體存取系統,此事件亦暴露該組織技術安全措施之不足,因受影響系統中使用的軟件的重要元素已過時,且公司未能執行例行的安全測試。ICO認為,像Carphone Warehouse此類規模龐大的公司,應積極評估其資料安全系統,確保系統穩健而避免類似的攻擊。   據此,ICO判定該公司缺乏妥善的安全措施保障使用者資訊,已嚴重違反《Data Protection Act 1998》資料保護法,判罰40萬英鎊。   從今年5月25日起,隨著GDPR的生效,法律將更加嚴格。對此,ICO亦發布了有用的指導,包括GDPR指南,現在採取的12個步驟和工具包。國家網絡安全中心(NCSC)也為組織為保護自己所採取的步驟提供了有用的指導。

美國廠商使用之DMCA侵權調查正確性遭質疑

  一項由華盛頓大學所發表的研究聲明指出,媒體工業團體正使用有瑕疵的方式調查peer-to-peer網路文件共享中侵害著作權的問題。包括M.P.A.A.、E.S.A.、R.I.A.A等團體,不斷寄出逐年增加的DMCA侵權移除通知(takedown notices)給各大學和其他的網路業者。許多大學會在未經查證的情況下直接將侵權移除通知轉寄給學生,R.I.A.A.甚至跟進其中的一些侵權報告並將之寫入財務報告中。   但在2008年6月5日由華盛頓大學的助理教授等三人所發表的研究中認為這一些侵權移除通知應該更審慎檢視之。研究指出,這些團體在指控檔案分享者的調查過程中有嚴重的瑕疵,可能使對方遭受不當的侵權指控,甚至可能來自其他網路使用者的陷害。在2007年5月及8月的兩次實驗中,研究員利用網路監控軟體監控他們的網路流量,實驗結果顯示即使網路監控軟體並未下載任何檔案,卻仍然接收到了超過400次的侵權警告信。   該研究結果顯示執法單位的調查過程中只查詢了網路分享軟體使用者的I.P.位址,卻未真正查明使用者正在下載或是上傳的實際檔案為何,在這種薄弱的搜查技巧跟技術方式之下任何使用網路文件分享軟體的使用者都可能被告,不論其所分享的檔案是否侵權皆如此。

歐美擴大永續報告書的揭露範圍,企業可透過歷程管理增進資料透明度

根據美國瑞生國際律師事務所(Latham & Watkins)於2024年1月發布的ESG年度報告指出,隨漂綠議題延燒,ESG報告不受信任為一課題,因此國際逐步擴大ESG監管,多國透過立法強制企業應揭露永續報告書或供應鏈資訊,比如:歐盟於2023年1月生效之《企業永續報告指令》(Corporate Sustainability Reporting Directive, CSRD),要求企業揭露的永續資訊需增加供應鏈資訊的透明度;美國證券交易委員會(SEC)於2024年3月6日通過規則,要求上市公司及公開發行公司揭露碳排放報告等氣候風險相關資訊。 為因應ESG帶來的挑戰,報告建議企業應採取流程化管理方式,了解產品進出口涉及的其他國家對ESG揭露資訊的要求,加以規劃並建置資料控管規範、進行人員教育訓練以及確認ESG相關資料的所有權歸屬。 由於碳排放量的計算沒有一致標準,且難以確保供應鏈上下游所提供的碳排資訊真實、未經竄改等問題,外界不容易信任企業永續發展書提倡的供應鏈減碳策略。國內企業可參考資策會科法所創意智財中心發布的《重要數位資料治理暨管理制度規範(EDGS)》,透過流程化管理,從制度規劃及留存供應鏈二氧化碳排放量或二氧化碳減量等產品相關資料歷程來增進ESG資料透明度。 本文同步刊登於TIPS網(https://www.tips.org.tw)

歐盟執委會發佈產品能源標章政策研究報告

  歐盟實施能源標示(Energy Label)制度已屆滿20週年,目前能源標示制度下,主要針對家電產品(house appliances)之能源標示進行管制,共分為七個層級,即A、B、C、D四等級外,另於能源效率表現較好之A等級之上,再行劃分A+、A++、A+++三等級。   歐盟執委會於2012年10月下旬公告能源標示市場調查研究,期在目前能源標示制度(Directive 2010/30/EU)下,探究未來二種可導入的模式: 模式一,導入碳足跡(carbon footprint)、水足跡(water footprint)、資源消耗(resource depletion)、水毒性(water eco-toxicity)等四種環境衡量指標;模式二,僅導入碳足跡(carbon footprint)衡量指標。本研究旨在建立是否上述二種模式能鼓勵消費者採購更佳環境友善的產品,其次,測試消費者對於不同節能績效產品之採購意願。   本研究報告分為三大面向,第一大面向,檢視當前能源相關標示制度與資料,分析產品的碳足跡和環保標示。第二大面向,擇定三個市場,進行消費者質化研究。第三大面向,擇定九個市場並六千名消費者,就消費者之行為調查。   觀歐洲議會已於2012年底就若干產品之能源標示進行審議,與歐盟經貿關係亦屬密切之台灣當持續關注此項議題。

TOP