美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=67&tp=1 (最後瀏覽日:2025/12/22)
引註此篇文章
你可能還會想看
簡介美國《營業秘密案件管理的司法指引》

2023年7月13日,美國聯邦司法中心(Federal Judicial Center)發布《營業秘密案件管理的司法指引》(Trade Secret Case Management Judicial Guide)。該指引是由美國聯邦司法中心與Berkeley大學合作出版,旨在提供處理聯邦營業秘密訴訟的法官參考,並為訴訟當事人提供營業秘密案件各階段的注意事項。其中特別指出識別營業秘密及證據開示在訴訟中的重要性。 1.在識別營業秘密的部分 《營業秘密案件管理的司法指引》指出在訴訟中,識別應達到「足以與已公開的資訊進行比較」的程度。而識別程度應具備以下兩個要件,包括: (1)使被告了解原告所主張之營業秘密範圍; (2)使被告能確定證據開示項目與本案所涉及之營業秘密間的關聯性。 據此,若原告僅識別其所主張之營業秘密的類別不足以識別其營業秘密。為達到《營業秘密案件管理的司法指南》所要求之識別程度,企業應盤點其擁有的營業秘密並留存產出紀錄,以利後續訴訟中能具體識別其營業秘密。 2.在證據開示的部分 《營業秘密案件管理的司法指引》指出證據開示的範圍會受到不同因素影響,比如各類型的特殊紀錄、個人隱私權是否受到保護等。為了能在證據開示階段取得優勢,企業應與員工簽署協議,明確約定其於機密資訊有外洩之虞時,有權對員工之個人設備等進行調查。 由上述內容可以發現,若要在美國營業秘密案件中取得優勢,建議企業採取識別所擁有的營業秘密、保存產出紀錄、與員工簽署相關協議等措施。關於前述營業秘密管理措施之重要內容,企業可以參考資策會科法所創意智財中心發布的「營業秘密保護管理規範」,並進一步了解該如何管理,以降低自身營業秘密外洩之風險,並提升其競爭優勢。 本文同步刊登於TIPS網站(https://www.tips.org.tw)

資通安全法律案例宣導彙編 第1輯

美國地方法院以缺乏原創性為由駁回對泰勒絲歌詞的侵權訴訟

  2016年9月,詞曲創作者Sean Hall及音樂公司代表Nathan Butler提出著作權侵權訴訟,控訴泰勒絲2014年單曲【Shake it off】中「Playas, they gonna play / And haters, they gonna hate」的詞彙使用方法抄襲了2001年所錄製的【Playas Gon'Play】,主張在2001年前這種特定角色加上特定動作的重覆出現組合,並未於任何流行文化中所使用。   由於原告僅以歌詞部分進行侵權訴訟,美國聯邦地區法院法官不需專家或陪審團意見即可進行判決。法官Michael Fitzgerald以「平庸(banal)」一詞形容原告所提出的詞彙組合,駁回該訴訟,並表示被控侵權的泰勒絲歌詞內容部分為短語(short phrases),缺乏著作權法所保護的原始性及創作性,且「Playas gonna play / haters gonna hate」所展現的創作性和「鼓手會打鼓/游泳者會游泳」沒什麼兩樣。因此,除非【Shake it off】中有其他音樂元素可能值得聲稱侵權,法院願意給予原告機會修改聲明,進行上訴。此外,法院提出其它理由:「Playas+play」這樣的詞彙組合早於1977年單曲【Dreams】中「Players only love you when they’re playing」就曾被使用過,且「Playas」一詞也曾用於1990年年代做為R&B樂團的團名。   這不是【Shake it off】第一次遭逢侵權訴訟,2015年Jessie Braham指控【Shake it off】侵犯其於2013年發行的單曲【Haters Gone Hate】,並求償4,200萬美元。但由於原告並未提供足夠證據,該案亦遭駁回。

歐盟執委會宣布「軟體開源授權及複用」決定

  歐盟執委會於2021年12月8日宣布「軟體開源授權及複用」決定(COMMISSION DECISION on the open source licensing and reuse of Commission software)。本決定規範執委會軟體之開源授權條件與複用方式,其軟體開源授權流程如下: 一、執委會依本決定(下同)第5條授予其軟體的開源授權證應為歐盟公共授權(the European Union Public Licence, EUPL),除因(1)適用第三方軟體的互惠條款,而強制使用其他開源授權證,或替代開源授權證比EUPL更便於人民使用該軟體;(2)適用第三方軟體之授權條款,存在多個開源授權標準(不含EUPL),則應優先選擇授予最廣泛權利的開源授權。 二、透過第8條對智慧財產權進行核實,包括:(1)軟體識別(2)對軟體的智慧財產權進行驗證;及(3)安全驗證。 三、依第6條規定將所有開源軟體置於資料庫,供公民、公司或其他公共服務有潛在利益者取得。   另外,依第四條規定,本規則不適用於以下情形:(1)因第三方智慧財產權問題,無法允許複用的軟體;(2)該原始碼之發布或共享,對執委會、其他歐洲機構或團體的資訊系統或資料庫安全構成實質或潛在風險;(3)因法律規定、契約義務或性質,其內容須被視為機密之軟體;(4)依(EC)1049/2001第4條所列之情形,包含但不限於:因公共利益、國家安全、隱私保護、商業利益、訴訟或審計之利益等,該軟體須被排除,或只能由特定之一方取得或管理;(5)委託由執委會進行研究產生之軟體,若公開將干擾臨時研究結果之驗證或構成拒絕註冊有利於執委會之智慧財產權的理由。

TOP