美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/03/01)
引註此篇文章
你可能還會想看
英國Ofcom提出「促進智慧聯網之投資與創新」報告並對英國智慧聯網管制應補強之方向提出建議

  英國電信主管機關Ofcom於2015年1月提出「促進智慧聯網之投資與創新」報告(Promoting investment and innovation in the Internet of Things),對英國智慧聯網(Internet of things, IOT)之管制發表意見。Ofcom認為就英國發展智慧聯網之現況而言,在商業上確實已經進行智慧聯網發展並投資之,然,並未對複雜的發展做好準備;Ofcom亦承認英國在基礎設施和政府管制架構上,尚未具備適當的發展。於此報告中,Ofcom提出四方向的建議,分別為資料隱私與消費者認識、網路安全與防護、智慧聯網可用之頻譜和電話號碼與網址管理等四項。   首先在資料隱私與消費者認識部分,Ofcom認為以現有管制保護智慧聯網下之隱私的效果有限,因此建議英國「資訊專員辦公室」(Information Commissioner's Office , ICO)需要發展未來隱私保護議題之解決方法,並且與政府及其他管制機關就資料隱私之法制議題共同進行,包括將現有之資料保護管制之範圍進行評估,考量是否需涵蓋到所有智慧聯網設施,和訂定智慧聯網資料共享之原則。   第二,在網路安全與防護管理上,Ofcom指出英國2003年通訊法(Communication Act 2003)已就服務提供者所提供之公眾可使用的網路與服務,課與特定安全與防護責任;例如網路與服務提供者必須採取適當的手段管理安全風險,尤其需將對終端使用者之影響降至最低、網路提供者必須採取所有適當的程序,盡可能的保護網路安全。然,Ofcom認為智慧聯網並未直接規定於現有的管制中,例如智慧電網設施之高度安全與防護範圍應涵括私人網路;故,應評估必須規定於法律中的智慧聯網網路與服務種類,以達完善防護。   再者,關於智慧聯網可用之頻譜議題,著重於用於智慧聯網之技術須改進。目前使用之頻譜在2.4和5GHz(此頻譜亦用於Wi-Fi服務);而未來的設施也可能使用到1GHz以下的頻譜,同時Ofcom也說明其將來僅會監視頻譜的利用,而不會開放新的可用頻譜。   最後,在電話號碼與網址管理方面,就智慧聯網設施之網際網路協定,未來可能會從IPv4發展成為IPv6也是相當重要的。Ofcom認為未來智慧聯網可能會發展成一個「相當大數量且顯著的設施」,故採用IPv6將顯得更為重要;然,就目前而言,英國採用IPv6之情況系落後於其他國家的。   Ofcom現正致力於發展新的頻譜管制、數據隱私、網路安全與網址等管制,殊值得繼續觀察以俾利我國智慧聯網管制與發展。

日本經濟產業省發佈「第四次產業革命競爭政策研究會報告書」

  2017年6月28日日本經濟產業省發佈「第四次產業革命競爭政策研究會報告書-以實現產業整合(Connected Industries)為目標-」。日本政府為能持續推動該國經濟,以建立創新附加價值的產業社會為目標,以實現產業整合並促進創新與競爭環境,於本年度一月至六月召開七次「第四次產業革命競爭政策研究會」,進行日本競爭政策檢討,並於28日發佈第一階段報告書。   本報告中提出四種大數據應用的商業模式,分別為:單獨成長型、附隨應用型、他面活用型與多面展開型四種。單獨成長型著重於產品或服務本身透過資料蒐集應用來改善品質。附隨應用型則除了透過資料搜集以進行產品與服務品質改善以外,亦擴散經驗運用到其他使用者的服務內容改善。他面活用型則透過產品或服務的資料蒐集,運用到其他的領域(例如駕駛資料的蒐集運用到保險費率的計算)。多面展開型則將多種不同的產品與服務的資料取得後綜整分析以能相互提升品質,或應用到新發展的領域。   報告中並提出資料運用對競爭環境影響的三個關鍵步驟。首先是資料本身的影響力,包括資料本身的必要性、資料品質、蒐集成本等。其次為資料蒐集的可能性,因其他競爭者也可能取得相同資料,故應確保資料的稀少性與蒐集能力的差異(與競爭者能區別)。第三是資料運用可能性,應注意資料應用上是否有資金、人才在競爭上的其他限制。

MPAA 藉由 BT 網站伺服器記錄對 P2P(BT) 軟體用戶提起訴訟

  追蹤、定位、起訴,所有 P2P(BT) 軟體使用者的噩夢再次上演。全美製片業團體「美國電影協會」 ( Motion Picture Association of America ; MPAA ) 在 8 月 25 日對美國境內 286 位居民提起訴訟,成為首宗利用 P2P(BT) 網站伺服器記錄 ( server logs ) 追蹤 ( track down ) 盜版電影下載者的案例。   今年 2 月,著名 BT 網站 LokiTorrent 與 MPAA 的大戰告一段落。德州法院下令 LokiTorrent 關閉網站外,並命令 LokiTorrent 將伺服器記錄轉交給 MPAA 的調查員 ( investigator ) 。 MPAA 的發言人聲稱本月 25 日的訴訟與此事件無關,但所有人都明白 MPAA 正是憑此線索,最終找到了 P2P(BT) 用戶的行蹤。好萊塢希望藉此行動阻嚇免費下載電影的行?, MPAA 資深副總裁 John Malcom 聲稱「下載盜版電影的人要當心了,當你為著作權侵害行為時,網路上並不會有朋友站出來替你撐腰。」   儘管 P2P(BT) 軟體背負著助長盜版的惡名,但 P2P(BT) 的合法用途也在逐漸增加,例如使用 P2P(BT) 技術分發 ( distribute ) 開放原始碼軟體 ( open-source software ) ,網路瀏覽器軟體公司 Opera 即在新版的程式中內建了此種技術。 BT 技術的發明人 Bram Cohen 曾警告用戶,使用 P2P(BT) 軟體下載盜版是個蠢主意,因?軟體在設計時並未刻意隱藏用戶的識別資訊,這也是為何 MPAA 此次能憑藉著伺服器記錄對用戶提起訴訟的主要原因。

「資訊儲存服務」提供者法律責任之研究-以日本實務新興發展為例

TOP