美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=0&tp=1 (最後瀏覽日:2025/10/07)
引註此篇文章
你可能還會想看
FCC就電信轉接服務相關法規之適用發布命令

  1990 美國身障礙法要求 FCC 確保在合理的情況下,有聽覺或語言障礙人士都能夠接近使用 電信轉接服務 ( telecommunication relay services , TRS ) 。 TRS 的提供使有聽覺或語言障礙者得以能夠利用電信設施與其他人溝通,而這樣的溝通過程必須是在有受過訓練之通訊輔助人 (communication assistant , CA) 的協助方能夠完成。 CA 會負責交換使用各種不同輔助通訊裝置 ( 例如 TTY 或電腦 ) 者與使用語音電話者間的通訊。為了減少因為通訊轉換所造成的中斷以及為了使該通訊在功能上幾近等同於語音通訊, TRS 相關規定要求 CA 必須等待至少 10 分鐘後,方能將該筆通訊移轉給另一個 CA 。然而,此規則應用於影像轉接服務 (Video Relay Serices) 時,卻引發相關疑義,例如當發話端使用 ASL(American Sign Language ,美國手語 ) 時, VRS CA 可能會因為使用的手語系統的不同而不能夠正確地了解發話端的意思,因此最好的情況時,可以立即將該筆通訊移轉給另外一個 CA 處理。於此情況下, FCC 於 16 日所發布的命令 (Order) 中表示,考量通訊本身的效率性, CA 可以將通訊移轉給另一名 CA 處理,而不必等待至少 10 分鐘後才將該通訊轉出去。

地理空間資料(Geospatial Data)

  Google地圖、GPS導航、Facebook定位打卡、「台北等公車」、Uber叫車,「地理空間資料」(Geospatial Data)的運用已經滲透現代人的生活。然而,究竟什麼是「地理空間資料」?所謂「地理空間資料」,依美國的《2018年地理空間資料法》 (Geospatial Data Act of 2018)的定義:「與地球上緊扣相關的位置資訊,包含辨識地球上的地理位置和自然或結構特徵與疆界。在向量資料組(Vector Dataset)中,大致以點、線、多邊形或複雜的地理特徵或現象呈現。該資料可能透過遙測(Remote Sensing)、製圖(Mapping)和量測(Surveying)科技取得。」   地理空間資料涉及地理學、地圖學(Cartography)、地理資訊系統學(Geographical Information Science, GIScience)及許多相關的科學領域。互動式的時間與空間功能,成就了當今混和空間與時間的資訊爆炸,更是五花八門運用地理資訊的手機應用程式之基礎等。應用場景涉及政府、商業、社會各層面,順利達成多元且重要的任務,例如:疾病通報、環境監測和公共安全。2017年Google於委託AlphaBeta的分析報告指出:「全球地理空間資料相關服務每年有四千億美元的產值、節省消費者超過五千五百億美元的燃料和時間成本、直接創造四百萬份工作機會。透過電子地圖服務,如:提高顧客流量的免費行銷工具Google My Business,更促使小型商家產生1.2兆美金的營業額。」

美國能源部協助企業投入再生能源研發,及促進商業化應用

  美國為鼓勵與促進企業進行再生能源之研發,能源部(Department of Energy,DOE)規劃協助企業投入再生能源研發,並期加速商業化應用。為此,能源部將推出協助措施及推動計畫,其計畫經費一部分由美國復甦與再投資法案(American Recovery and Reinvestment Act)出資,另一部分來自於今年度的預算撥款。其中,三十億美元資金協助計畫將建置將近五千項涵蓋生質能、太陽能、風力發電以及其他再生能源之生產設備,另一項七億五千萬美元資金協助將改善電力傳輸系統。能源部期盼這兩項資金協助計畫,將帶動再生能源之研發,並促進新興能源科技的商業化應用。   有關美國協助民間發展再生能源計畫,今(2009)年七月底,美國能源部已公佈相關資金協助申請作業程序,預計每項提出申請計畫平均約可獲得六十萬美元額度,目前尚未對一家公司的申請額度設有上限,也並未對其可動用之資金額度設有總額限制,預計這些計畫將鼓勵私人投資再生能源,創造未來就業機會,協助帶動美國經濟。   能源部部長Steven Chu表示,這些協助計畫將激發綠色能源科技的創新,確保未來再生能源的輸送更為安全有效率,並將帶來相關就業機會。政府方面已設定目標,預計未來三年內將增加再生能源生產至目前的雙倍。為達成此一目標,必須確保有效地資金挹注才能加速再生能源的發展,同時設置完備的電力傳輸系統,整合各類型的再生能源,如太陽能與風力發電,便於日後將所生產的能源傳送至各地。

谷歌,蘋果商談競標已破產的柯達專利

  根據華爾街日報報導指出,蘋果及谷歌將聯合競標柯達公司所釋出的專利組合。   在智慧型手機市場上蘋果和谷歌互為競爭對手,原訂在柯達專利拍賣案中,兩家企業提出1億5仟萬美元至2億5仟萬美元金額進行競標活動,改協議採合作結盟競標方式,以較低的金額獲得柯達的專利。   華爾街日報引據熟悉此項談判之人士指出主要電子產業公司,如Samsung(三星)、LG(樂金)及HTC(宏達電),及其他以透過購買專利作為投資或保護公司營運為目的之企業亦有參與。   柯達為規劃重新成為印刷領域的專業,需藉由販賣其所擁有的1,100件數位影像專利以籌措資金,在今年年初,柯達評估所有專利價值為26億美元(21億歐元)   而柯達對外發布買方非常踴躍於此次競標活動中,但目前尚未可以公布結果,將無限期限地延長拍賣時間,主要柯達是希望蘋果及谷歌能在所釋出的專利中,進行一場專利競標的競賽。

TOP