美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=6621&no=57&tp=1 (最後瀏覽日:2026/06/19)
引註此篇文章
你可能還會想看
美國國家標準暨技術研究院規劃建立「人工智慧風險管理框架」,並徵詢公眾對於該框架之意見

  美國國家標準暨技術研究院(National Institute of Standards and Technology, NIST)為管理人工智慧對於個人、組織以及社會所帶來之風險,於2021年7月29日提出將建立「人工智慧風險管理框架」(Artificial Intelligence Risk Management Framework, AI RMF)之規畫並徵詢公眾意見,截止日為9月15日,並預計於10月發布正式報告。   依照NIST說明,公眾所建議之人工智慧風險管理框架,可促進人工智慧之可信賴性,其中包含如何應對並解決人工智慧於設計、發展及使用過程中所遭遇之「精確度」(accuracy)、「可解釋性」(explainability)、「偏見」(bias)等議題。此外,上開管理框架預計為非強制性、供企業自願性使用於人工智慧設計、發展、使用、衡量及評估之人工智慧標準。   依現有公眾意見徵詢結果,其中DeepMind公司建議於人工智慧設計初期,必須預先構思整體系統之假設是否符合真正社會因果關係。舉例言之,當設計一套可預測民眾健保需求程度之系統時,如輸入參數僅考量民眾於醫療上的花費,將使僅有可負擔較高醫療費用之民眾被歸類為健保需求程度較高者,從而導致健保制度排擠經濟負擔程度較差之公民,故在設計系統時,應從預先設定之假設事實反面(counter-factual)思考並驗證是否會產生誤差或公平性之問題(例如預先思考並驗證「醫療費用支出較低之民眾是否即可被正確歸類為健保需求度低之民眾」)。惟進行上述驗證需要大量社會資料,因此DeepMind也建議NIST應建立相關機制,使這些社會資料可以被蒐集、使用。   此外,亦有民眾建議管理框架應有明確之衡量方法以及數值指標,以供工程界遵循。同時鑒於人工智慧發展極為快速,未來可能有不同於以往之人工智慧類型出現,故亦建議NIST應思考如何在「建構一套完整且詳細之人工智慧治理框架」與「保持人工智慧治理框架之彈性與靈活性」之間取得平衡。   最後,目前也有許多徵詢意見指出,許多人工智慧治理之目標會相互衝突。舉例言之,當NIST要求人工智慧系統應符合可解釋性,則人工智慧公司勢必需要經常抽取人工智慧系統中之「數據軌跡」(audit logs),惟數據軌跡可能被認為是使用者之個人資料,因此如何平衡或完善不同治理框架下之目標,為未來應持續關注之議題。

印度政府對新創事業之補貼 – 專利權聚焦。

  印度政府近年來聚焦新創創業發展,其成果更是驚人,根據一份研究報告,印度的科技產品相關新創事業光是在2016年就已達4700家以上,在當年排名全球第三,僅次於美國與英國,且預計在2020年會有2.2倍左右成長率,亦即數量翻倍。1 現今印度政府共計有超過50個新創事業獎勵補助等機制,分別由不同部門與單位執行,2 以下針對新創事業專利權補助之三大機制作介紹。   電子與資訊部門(Department of Electronics and Information Technology)、科學與工程研究委員會(Science and Engineering Research Board),以及生物科技產業研究輔助委員會(Biotechnology Industry Research Assistance Council),為三大對新創事業專利權之申請與握有,提供相關補助之印度政府部門。 (1) 電子與資訊部門之機制主要適用於人工智慧、資訊科技與軟體等產業,符合機制的新創業者申請國際專利權時,印度政府會提供15萬盧比(相當70萬台幣)或是總花費50%的補貼,補助金額看似多,但該機制有產業限制,且只施行至2019年11月30日。 (2) 科學與工程研究委員會之新創機制亦是對於專利申請有金錢上之補貼,特色在於適用產業十分廣泛,舉如化學、硬體、醫療、農業、航空、通訊、建築、能源等產業皆在機制內,重點要件在於新創業者需是已進入概念驗證(proof of concept)之階段,再者,該新創機制沒有施行期限。 (3) 生物科技產業研究輔助委員會之創新機制沒有適用產業與期限的限制,但適用對象確有限制,只限印度公民與成功展現概念驗證之創新者,該機制特色在於:補貼是對於符合標準的整個專案計畫,非只對於專利權。金額大約是20萬至500萬盧幣(約台幣10萬至200萬),或是整個專案計畫50%-90%花費。   印度政府對於新創業者之專利權相關補助共有三個機制可以選擇,優點在於新創業者可以依自己的展業別、發展階段、預算及相關因素自行選擇最有利的機制,以達到獲取補助最高的成功率。單一新創補助機制過於硬性,多數方案則可以提供選擇性與彈性。台灣就新創事業多提供貸款融資服務、資金補助計畫、或稅務減免等政策,尚未針對新創事業專利權做特定之政策優惠,或許台灣能在印度此三大專利權補助機制有可學之處。

如何規範通聯紀錄的詐取及販售行為,成為美方關注的焦點

  美國第四大無線通訊業者T-Mobile於1月24日依據華盛頓州暴利罪法(criminal profiteering laws)向該州高等法院提出申請,要求法院對Data Find Solutions公司、1st Source Information Specialists公司及其他有關的公司與個人發出禁制令(injunction),以防止上述公司透過詐欺手段獲取及販售T-Mobile客戶的通聯紀錄(call records)。   目前包括了州議員、州檢察總長及聯邦通訊傳播委員會(Federal Communications Commission),均積極探求相關的法律規定,如果Data Find Solutions等公司非法獲取及販售通聯紀錄的情況屬實,將依法予以定罪。   無獨有偶,在一週之前伊利諾州檢察總長也對1st Source Information Specialists公司提出了訴訟,控告該公司非法取得及販售通聯紀錄。數位眾議員及參議員,已經公布了相關立法計畫,未來凡以欺詐的手段獲取及出售通聯紀錄都將被視為違法行為。參議院多數黨領袖Bill Frist議員即表示,「詐取客戶通聯紀錄並透過網路出售是一錯誤的行為,必須加以制止。」

美國士兵曼寧因向「維基解密」網站洩漏國家外交及軍事情報而遭起訴22項罪名

  美國的情報分析員一等兵布蘭德利.曼寧(Brandly Manning),被控訴22項包括通敵罪、非法取得並散布外交及軍事機密的文件給「維基揭密」網站等妨害國家安全罪名,現被拘禁在馬里蘭州的米德堡。     曼寧一審由軍事法院審理,但軍事上訴審法院認為管轄權有爭議,為決定是否繼續適用軍事法院的審理程序,今年10月10日舉行預審聽證會,由五人一組的普通法院法官受理。同時,維基解密、憲法人權中心、美聯社等新聞媒體,均要求軍事法庭依憲法第一修正案,提供曼寧案的相關卷宗資料,但政府發言人查得費雪上尉(Captain Chad Fisher)表示,第一憲法修正案沒有絕對的效力,也未賦予法院公開卷宗的義務。若記者和大眾想獲得案件的文件資料,可透過「情報自由法」申請。但依「情報自由法」的申請程序非常冗長,而且美聯社和曼寧的辯護律師大衛.庫姆斯(david Commbs)的申請都已遭拒絕,律師大衛只能在私人網誌上向關心曼寧案的民眾公布案件進度和內情。     憲法人權中心的律師Shayana Kadidal 表示,不公開卷宗資料,就算參與了聽證會也無法理解案件的真實面貌,而無法做出準確的報導。但軍事法院對於憲法人權中心、新聞媒體及公眾要求公開法庭卷宗的訴求依然無動於衷。軍方和憲法人權中心將在之後會提交聲請,解釋為何他們認為軍事上訴審法院有權裁決卷宗是否公開。     曼寧下次庭期是明年2月4日,若通敵罪成立,曼寧將會被判終身監禁。

TOP