美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2025/12/10)
引註此篇文章
你可能還會想看
英國Ofcom提出「促進智慧聯網之投資與創新」報告並對英國智慧聯網管制應補強之方向提出建議

  英國電信主管機關Ofcom於2015年1月提出「促進智慧聯網之投資與創新」報告(Promoting investment and innovation in the Internet of Things),對英國智慧聯網(Internet of things, IOT)之管制發表意見。Ofcom認為就英國發展智慧聯網之現況而言,在商業上確實已經進行智慧聯網發展並投資之,然,並未對複雜的發展做好準備;Ofcom亦承認英國在基礎設施和政府管制架構上,尚未具備適當的發展。於此報告中,Ofcom提出四方向的建議,分別為資料隱私與消費者認識、網路安全與防護、智慧聯網可用之頻譜和電話號碼與網址管理等四項。   首先在資料隱私與消費者認識部分,Ofcom認為以現有管制保護智慧聯網下之隱私的效果有限,因此建議英國「資訊專員辦公室」(Information Commissioner's Office , ICO)需要發展未來隱私保護議題之解決方法,並且與政府及其他管制機關就資料隱私之法制議題共同進行,包括將現有之資料保護管制之範圍進行評估,考量是否需涵蓋到所有智慧聯網設施,和訂定智慧聯網資料共享之原則。   第二,在網路安全與防護管理上,Ofcom指出英國2003年通訊法(Communication Act 2003)已就服務提供者所提供之公眾可使用的網路與服務,課與特定安全與防護責任;例如網路與服務提供者必須採取適當的手段管理安全風險,尤其需將對終端使用者之影響降至最低、網路提供者必須採取所有適當的程序,盡可能的保護網路安全。然,Ofcom認為智慧聯網並未直接規定於現有的管制中,例如智慧電網設施之高度安全與防護範圍應涵括私人網路;故,應評估必須規定於法律中的智慧聯網網路與服務種類,以達完善防護。   再者,關於智慧聯網可用之頻譜議題,著重於用於智慧聯網之技術須改進。目前使用之頻譜在2.4和5GHz(此頻譜亦用於Wi-Fi服務);而未來的設施也可能使用到1GHz以下的頻譜,同時Ofcom也說明其將來僅會監視頻譜的利用,而不會開放新的可用頻譜。   最後,在電話號碼與網址管理方面,就智慧聯網設施之網際網路協定,未來可能會從IPv4發展成為IPv6也是相當重要的。Ofcom認為未來智慧聯網可能會發展成一個「相當大數量且顯著的設施」,故採用IPv6將顯得更為重要;然,就目前而言,英國採用IPv6之情況系落後於其他國家的。   Ofcom現正致力於發展新的頻譜管制、數據隱私、網路安全與網址等管制,殊值得繼續觀察以俾利我國智慧聯網管制與發展。

英國股權式群眾募資簡介-以近期監管規則發展為中心

Uber竊取Waymo無人車技術機密一案,法院裁定返還1.4萬筆機密資料

  Waymo是Google旗下發展無人車技術的公司,其員工Anthony Levandowski(以下簡稱Levandowski)於2016年2月離職並成立自動駕駛卡車公司Otto,而Uber於同年8月以6.8億美元併購該公司,Levandowski則任職於Uber的自動駕駛車部門。   Waymo在收到供應商誤發的電子郵件發現內含Uber的光學雷達(以下簡稱LIDAR)電路板工程圖,據Waymo表示,LIDAR是一種發展自動駕駛不可或缺的雷射感測器,該工程圖與Waymo設計的工程圖非常相似,此為工程師投入上千小時並投入數百萬美元研發而成。Waymo因而於今(2017)年2月對Uber提出告訴,主張Uber竊取其營業秘密與智慧財產,並表示Levandowski離開Waymo前曾使用私人硬碟下載公司上千筆機密資料,尚包括數名離職員工亦曾下載機密資料,且目前都任職於Uber。   今(2017)年5月美國加州北區聯邦地方法院依Waymo提出的有利證據,包含Uber明知或應知Levandowski握有1.4萬筆與Waymo智財相關的機密資料仍聘僱其為員工;且有完整紀錄顯示Levandowski離職前曾下載Waymo機密文件。因此裁定要求Uber限制Levandowski與相關員工使用與本案相關的LIDAR技術,且須於今年5月31日前返還Waymo,其中包含會議紀錄和Levandowski與相關員工電話紀錄。惟Uber仍可持續發展其自動駕駛技術,但賦予Waymo的律師及技術專家有權監視Uber未來的商業發展,並要求Uber必須在同年6月前調查Levandowski完整的LIDAR技術書面與口頭溝通紀錄,並提交給Waymo。   另方面,Waymo在此同時也宣布與Uber在美國的主要競爭對手Lyft建立自動車駕駛員的合作夥伴關係,挑戰Uber乘車服務的市場地位。本案將於今年6月7日進行審判程序,後續值得持續關注。

美國聯邦通訊委員會通過「數位機會資料蒐集計畫附加規則」,將改善美國境內寬頻網路布建差距之辨識

  美國聯邦通訊委員會(Federal Communication Commission, FCC)於2021年1月19日通過「數位機會資料蒐集計畫」附加規則(Digital Opportunity Data Collection additional rules),將幫助FCC蒐集更精確與準確的網路寬頻布建資訊(broadband deployment data),以完成美國境內寬頻網路布建差距之辨識任務。該規則規範了需向主管機關報告關於網路近用性和/或網路覆蓋率相關資訊的報告主體,使需要報告的固網和行動寬頻服務供應商範圍更加明確。另外該規則亦有針對網路服務供應商提出關於固網速度與網路延遲相關報告時,所應遵守事項作規範。   該規則亦針對蒐集各州、地方與部落網路寬頻布建資訊的對應實體(mapping entities)、聯邦政府機構,與第三方單位,制定此三方進行辨識寬頻網路布建差距作業時所應遵守之注意事項,並為網路服務供應商提交固網和行動寬頻覆蓋率地圖資料時,設置其提交流程所應遵守之相關規範。該規則要求行動式網路服務供應商提交依據實際情況的相關基礎設施資訊或現場測試資料,作為FCC對行動式網路覆蓋範圍調查和驗證的資料,這些資料還將應用於擴大某些特定區域行動式網路寬頻覆蓋範圍的相關作業上,以增加該區域居民的使用數位機會。   「數位機會資料蒐集計畫」附加規則將使FCC確切知道寬頻網的可近用服務位置和不可近用服務位置,以及更了解美國的寬頻網路需求,以確保將來每位美國公民都能使使用高速網路服務,這同時也是「數位機會資料蒐集計畫」的目的。

TOP