美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/03/07)
引註此篇文章
你可能還會想看
世界智慧財產權組織發佈2015年全球創新指數排名

  世界智慧財產權組織於2015年9月17日發佈的2015年全球創新指數報告(The Global Innovation Index)顯示,瑞士、英國、瑞典、荷蘭和美國是世界上最具創新力的前5名國家。   全球創新指數自2007年起每年發布,2015 年全球創新指數是該指數的第8版,由康乃爾大學(Cornell University)、歐洲工商管理學院(INSEAD)和聯合國專門機構世界智慧財產權組織(WIPO)共同發布,現已成為重要的評比基準,為全球國家競爭力與政策發展重要項目。世界智慧財產權組織總幹事Francis Gurry在當天的新聞發佈會上說:「每個國家都必須找到最佳的政策組合,以調整其經濟內部創新與創造的潛力」。從整體觀看,今年前25位排名都是高收入經濟體,與以往相較變動不大。值得注意的是,瑞士已連續5年位居第一,英國則從4年前的第8位躍升至第2位。英國的智慧財產權部長說:「產出優秀的科研成果向來是英國的優良傳統,英國人口比率佔不到世界1%,但發表頂尖的研究成果佔16%,卓越的科研是英國躍升國際創新排名第2位的主要原因。英國政府致力於創新研發、為新創提供足夠的智慧財產權保護、支持新創產業。」其後依次為:瑞典、荷蘭、美國、芬蘭、新加坡、愛爾蘭、盧森堡和丹麥。亞洲國家中只有新加坡進入前10名。   該份報告顯示,在創新質量方面,其中美國和英國保持領先,主要是因為其擁有世界級的大學;接著是日本、德國和瑞士。在創新質量上得分較高的中等收入經濟體則有中國、巴西和印度。 為了支持全球創新討論、指引各項政策、強調良好的作法,需要利用相關指標對創新和相關政策表現進行評估。全球創新指數創造出一種環境,即是使這些相關創新因素得到持續評估,其特色列舉如下: 1. 141個國家的現況介紹,包括根據79項指標所得出之數據、排名與優勢情形。 2. 根據30多個國際公私部門指標所得出的79個數據表,其中55個是可靠數據,19個是綜合指標,5個是問卷調查。 3. 公開透明且可複製的計算方法,其中每個指數排名(全球創新指數、產出和投入分項指數)有90%的置信區間,加上對影響每年排名的因素進行分析。 2015年全球創新指數是以兩個分項指數的平均值計算。創新投入分項指數衡量的是顯現出創新活動的國家經濟因素,這些因素共分為五大類:(1)機構,(2)人力資本與研究,(3)基礎設施,(4)市場成熟度,和(5)商業成熟度。「創新產出分項指數」是由創新成果的實際創新產出為證,分為兩大類:(6)知識與技術產出及(7)創意產出。

德國資料倫理委員會針對未來數位化政策之資料運用發布建議報告

  德國資料倫理委員會(Datenethikkommission, DEK)於2019年10月針對未來數位化政策中的重點議題發布最終建議報告;包括演算法產生預測與決策的過程、人工智慧和資料運用等。德國資料倫理委員會是聯邦政府於2018年7月設置,由多位學者專家組成。委員會被設定的任務係在一年之內,制定一套資料倫理標準和指導方針,作為保護個人、維持社會共存(social coexistence)與捍衛資訊時代繁榮的建議。   最終建議報告內提出了幾項資料運用的指導原則,包含: 以人為本、以價值為導向的技術設計 在數位世界中加強數位技能和批判性思考 強化對個人人身自由、自決權和完整性的保護 促進負責與善意的資料使用 實施依風險調整的監管措施,並有效控制演算法系統 維護並促進民主與社會凝聚力 使數位化戰略與永續發展目標保持一致 加強德國和歐洲的數位主權

新加坡個人資料保護法修正草案

  新加坡通訊及新聞部(Ministry of Communications and Information, MCI)與新加坡個人資料保護委員會(Personal Data Protection Commission, PDPC)於西元2020年5月14日至28日間針對其「個人資料保護法修正草案」進行民眾意見諮詢,總共收到87份回覆。綜合民眾回覆之意見後,同年10月5日,於議會提出了「個人資料保護法修正草案」,修正重點如下: 提高外洩個人資料者罰鍰金額,至該公司在新加坡年營業額10%或1000萬美元。MCI / PDPC說明,實際上於裁罰前會綜合考量個案事實與相關因素(如:嚴重性、可歸責性、影響狀況、組織有無採取任何措施減輕個資外洩造成的影響等),作為裁罰金額的判斷依據。此外,新加坡的個人資料保護法也加入了個資外洩通知義務,但與歐盟一般資料保護規範(General Data Protection Regulation, GDPR)仍有不同,例如:其多了評估是否通知的機制。 組織基於商業改善之目的,且遵守法定條件下,得未經同意使用個人資料,此處商業改善目的包含:(1)改善或加強提供之商品或服務,或開發新的商品或服務;(2)改善或發展新的營運方式;(3)瞭解客戶喜好;(4)客製化商品或服務所需。 在公司併購、重組、出售股份以及經營權轉讓等關於公司資產處置情形,得例外無需經當事人同意而蒐集、處理與利用個人資料。 新增資料可攜權相關規定。 處罰未經授權者處理個人資料之行為。針對民眾回覆之疑慮(認為草案內容不明確),MCI / PDPC說明預計在《法規與諮詢指南》中闡明有關授權行為的細節性規定,包含採取的形式。

企業員工分紅改列費用,衝擊高科技產業

  經濟部、金管會刻正規畫將企業員工分紅改列費用,並預計自九十六年度實施,以與國際會計處理原則接軌,預料將對高科技業將造成相當之衝擊。   國際會計準則都是將分紅列為費用計算,唯獨台灣是用盈餘在分配員工分紅,為與國際會計準則接軌,將分紅列入費用應是未來趨勢,可讓財報更加透明化,新今年 4 月 28 日 立法院修正通過的商業會計法第 64 條規定,公司企業應將員工分配盈餘在財報上改列為費用,以公平市價作為計算基準,並將另採行政命令或解釋令公布入帳方式。   不過員工分紅若以市價列入費用,公司帳上賺的錢就會減少,尤其是高價股、高配股的公司影響尤甚;另一方面,新規定亦可能使這些公司趕採股票選擇權,以或提高底薪、現金分紅等方式來降低衝擊,否則若是獲利都被「員工配股」稀釋光了,財報會非常難看。因此,高科技業者則希望主管機關能放寬買回庫藏股分配員工及員工認股權證規定,以降低衝擊。

TOP