美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?no=64&tp=1&i=72&d=6621 (最後瀏覽日:2024/04/27)
引註此篇文章
你可能還會想看
諾基亞採用蘋果開放軟體

  手機大廠諾基亞( Nokia )將在下一代智慧手機的瀏覽器中,採用蘋果電腦的開放原始碼軟體。其預定在今年六月推出 Series 60 智慧手機軟體包,其中的瀏覽器將整合數個同於蘋果 Safari 網路瀏覽器的開放原始碼科技– WebCore 和 JavaScriptCore 。 Safari 是以開放原始碼 K Desk Environment 之 Konquerer 瀏覽器的 KHTML 與 KJS 為基礎。   諾基亞表示,採用開放碼軟體後,將更方便開發商修改定作其新瀏覽器,並將提供新的使用者功能。諾基亞並且表示,未來仍將與蘋果電腦合作開放原始碼軟體,並積極投入開放原始碼社群。諾基亞對開放原始碼的興趣,在瀏覽器部門特別明顯。兩年前,該公司投資 Mozilla 基金會的 Minimo 計劃,創造一種根據 Mozilla Gecko 翻譯引擎的電話瀏覽器。 Minimo 團隊準備在今夏推出針對微軟 Windows CE 作業系統的 0.1 版瀏覽器。

全球創新指數(GII)評估COVID-19對於全球創新的影響

  全球創新指數(Global Innovation Index,簡稱GII)為世界智慧財產權組織(WIPO)與歐洲工商管理學院(INSEAD)等單位,共同衡量全球經濟創新績效之參考指標,於今年(2020)9月2日所發佈的全球創新指數顯示,COVID-19嚴重的阻礙全球創新的發展,但卻也對於特定領域(如醫療衛生)帶來新的創新契機。   今年與2009年(全球經濟危機時)相比,世界金融體系運作仍保持平穩,但用於資助創新型企業的資金,由於全球投資者對於疫情影響新創企業營利表現擔憂,資金的投入也連帶受到影響。而在創新融資方面,鎖定新創早期階段投資的創投公司為確保日後競爭力,轉向對當今熱門標的(如生命科學等)等進行投資,若屬於研發密集型新創企業(研發時間較長)及非投資熱點(區域)的企業,投資方面則所受疫情衝擊較大。   觀察全球主要國家,雖然皆制訂相關補助計劃用以緩解因疫情所帶來之衝擊,例如中短期欲透過貸款擔保爲企業提供支持。然而,這些補助措施並非直接爲創新和新創企業提供資金。儘管如此,專家對於全球科學和創新受COVID-19的影響也非全然悲觀,部分源自於全球對於資本回報的期待,也預估未來風險投資及創新也將轉向醫療衛生、遠距教學、大數據、電子商務、機器人等領域。

開放科學(open science)

  開放科學的基本理念,泛指在數位時代的背景下,各類型實驗測量機器獲得大量數據,以及網路行為累積的人類活動記錄,使各領域的研究活動趨向側重資料處理,結合分析工具後,以可閱讀的形式呈現並發表。   開放科學概念應用於行政與制度建立上,主要有兩個面向,其一為政府資助產出科學期刊論文等研究成果的開放取用(open access),意圖解決期刊雜誌訂閱費用過高,導致研究成果流通困難的問題,屬於早期開放科學關注的重點;其二則係使用官方研究資金進行研發時,於研究過程中取得的實驗、觀測及調查之研究資料開放運用,為近期政策與制度性倡議所聚焦,目的為使科學界、產業界以及一般社會大眾得以廣為接收並利用該些研究結果,令政府資金運用的一切成果均能充分回饋給國民與社會,期望藉由研究資料的公開,進一步深化該領域的研究進程、推展跨域研究或企業的產品與服務開發、以及創新活動。   舉例而言,日本內閣府於2018年提出的「統合創新戰略(統合イノベーション戦略)」第二章內,建構了國內開放科學下研究資料管理開放政策之基礎框架,關注伺服器空間內的研究資料保存與管理,與外國研究資料連動以建構巨量知識泉源,讓所有人得以廣泛活用該些研究資料,促成與加速跨領域與跨國境的新創。

Palm支付2.25億美元與Xerox達成專利侵權和解

  由於 Palm 採用 3C om 的手寫辨識技術,於 1997 年遭 Xerox 控訴侵犯其在 1997 年所取得的 Unistrokes 專利權, Xerox 要求 Palm 支付 Graffti 的使用權利金,否則便應停止在其 PDA 中使用此項技術。此案於今年 (2006) 6 月 28 日 經 紐約西區美國地方法院法官 Michael Telesca 判決 Palm 的 Graffiti( 手寫辨識軟體 ) 的確已侵害到 Xerox 權利。   Palm 同意支付 2.25 億美元以取得 Xerox 手寫辨識軟體的合法授權使用權,結束 1997 年以來長達 9 年的法律訴訟。事實上, Xerox 在 1997 年是控告後來被 3Com 收購的 U. S. Robotics 公司, 但 這家公司之後被 3Com 買下,後來 3Com 再將其獨立 成立 Palm Inc ,當時 Palm 將 Graffiti 技術嵌入旗下的 Pilot PDA 中,也把使用了 Graffiti 技術的軟體賣給其他 PDA 製造商。   這次 Palm 所支付的費用涵蓋了 Palm Inc 、 PalmSource 及 3C om ,這三家業者均取得 Unistrokes 及 Xerox 其他兩項技術的專利的授權。雙方的協議包括 7 年的「專利和平」( patent peace )期,在這期間內允許合理使用談定的專利,而且不再互控對方。

TOP