美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2026/05/09)
引註此篇文章
你可能還會想看
美國先進製造國家計畫辦公室於今年(2015) 6月10日研提現況檢討報告與相關政策資料

  為檢視國內先進製造業復甦與計畫推進之近況,美國先進製造國家計畫辦公室(Advanced Manufacturing National Program Office, AMNPO)於今年(2015) 6月10日研提現況檢討報告與相關政策資料,該項報告主要可歸結「國內產業現況」、「計畫執行成效」與「法制組織」等重要面向 ,茲就該項報告之重點摘要如下: (一)國內先進製造產業現況檢視:   報告指出美國目前正喪失在先進產品領域全球領導地位,在進出口貿易呈現嚴重赤字,雖近年致力於先進製造之資源整合與共同研發等措施,然而,觀察基礎科研端到市場端仍存有落差。 (二)先進製造領域已設立45個研發創新中心:   研發創新中心為產業與學研機構共構之「區域應用性組織」,主要由學術研究聯盟、企業和區域管理機構所組成專注於扶持區域具經濟優勢之新興技術研發,發展在地技術能量。先進製造領域,截至目前為止,已設立45個研發創新中心。除透過研發創新中心之扶持外,另可透過中心之設立選定各該重點關鍵技術發展,間接培育美國各區域之先進製造技術之專業領域。美國境內研究型大學或非營利組織皆得提案申請,而獲選之區域創新研究機構可獲得聯邦政府5至7年資金補助,政府欲透過補助模式,扶持區域新創機構之自主運作與發展。而於七年發展階段後,該機構將形成財政自主,由該機構之行政委員會主導研發資金運用與分配。

美國聯邦最高法院受理美國發明法複審程序違憲爭議案

  美國聯邦最高法院於2017年6月13日受理Oil States Energy Servs., LLC v Greene’s Energy Group, LLC案之上訴,並將針對美國發明法的專利複審程序是否有違憲之虞的爭點進行處理。事實上,自從2016年美國聯邦最高法院的Cuozzo Speed案認定專利審判暨上訴委員會(Patent Trial and Appeal Board, PTAB)之專利複審程序可適用最寬廣合理解釋原則(broadest reasonable interpretation standard,BRI)後,針對美國專利法第314條規定美國專利複審程序之最終裁決結果不可上訴條款,就已經突顯出可能違憲之問題。加以來自各界的法庭之友於MCM訴惠普專利侵權案中提交意見書,以促使法院審理美國發明法的專利複審程序究竟有無違反美國憲法第3條及修正法案第7條,而有法律條文賦予行政機關司法權力是否違憲之議題,也再一次突顯專利複審程序可能存在的違憲問題。   本案件聯邦最高法院將對PTAB的權限以及專利複審程序進行重新檢視。倘若專利複審程序中PTAB最終裁決結果不可上訴條款造成違憲,可能會影響到美國專利制度之運作,不僅是正在申請或是已獲證的專利都會受到影響。而曾經被PTAB裁決無效的專利,也可能產生尋求司法救濟的可能。

英國發布國家資料戰略(National Data Strategy)

  英國數位、文化、媒體暨體育部(Department for Digital, Culture, Media & Sport)於2020年9月9日發布「國家資料戰略」(National Data Strategy),作為英國規劃其政府資料流通運用的整體性框架。數位、文化、媒體暨體育部長Oliver Dowden表示,資料為驅動現代社會經濟發展的關鍵。於今年COVID-19的全球疫情流行期間,政府、企業、組織等彼此及時共享重要資訊,除達成了防疫目標,更維繫了各層面的經濟生活。因此,本戰略則規劃活用此段期間獲得的知識與經驗,試圖透過資料的釋出流通與運用,讓英國經濟自COVID-19疫情中復甦,提高生產力與創造新型業態,改善公共服務,並使之成為推動創新的樞紐。   為優化英國資料的運用,本戰略提出了四個核心面向:(1)資料基礎(data foundation):資料應以標準化格式,且符合可發現(findable)、可取用(accessible)、相容性(interoperable)與可再利用(reusable)的條件下記載;(2)資料技能(data skills):應藉由教育體系等培養一般人運用資料的技能;(3)提升資料可取得性(data availability):鼓勵於公共、私人與第三部門加強協調、取用與共享具備適切品質的資料,並為國際間的資料流通提供適當的保護;(4)負責任的資料(responsible):確保各方以合法、安全、公平、道德、可持續、和可課責(accountable)的方式使用資料,並支援創新與研究。   基此,本戰略進一步提示了五個優先任務:(1)釋出資料的整體經濟價值:建立適切的條件,使資料在經濟體系內可取得且具備可取用性,同時保護私人的資料權(data rights)、以及企業的相關智慧財產權;(2)建構具發展性且可信賴的資料機制:協助企業家與新創人士以負責任及安全的方式使用資料,避免產生監管上的不確定性或風險,並藉以推動經濟發展。同時,也期待藉由機制的建立,鼓勵公眾參與資料的數位經濟應用;(3)改變政府運用資料的方式,提升效率及改善公共服務:以COVID-19疫情期間政府對資料積極運用為契機,推動政府間的整體資料有效管理、使用與共享措施,為相關作法建構一致性的標準與最佳實踐方式;(4)建立資料基礎設施的安全性與彈性:資料基礎設施為國家關鍵資產,應避免其遭遇安全或服務中斷的風險,進而導致資料驅動的相關業務或組織服務中斷;(5)推動國際資料流(international flow of data):與國際夥伴合作,確保資料的流通運用不會因各地域的制度不同,而受到不當限制。

列管高科技人員,政府加強有效管理西進的措施已漸顯露

  隨著去年( 93 )「臺灣地區人民法人團體或其他機構擔任大陸地區法人團體或其他機構職務或為其成員許可管理辦法」的公佈,加上行政院十月已將「敏感科學技術保護法」列為立法院第 6 屆第 2 會期優先審議法案,若是完成立法程序後,將同步對敏感科學技術以及人才登陸進行嚴密管制。   這項管理措施雖在於避免大陸不正當的挖角行為、國家核心技術及人才外流等,但是截至目前為止,限制進出的高科技人才清單至今尚未公告;即便清單公告後,相信透過第三地進出等投機方式,政府在管理上應當會疲於奔命,增加執行困難。政府發展高科技經濟理應建立「吸引留下」的環境,而非以防堵心態限制人才登陸工作,如此只會加速人才的流失、國外人才或廠商來台工作或投資之意願降低,更遑論台灣永續發展的可能。

TOP