美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用

  在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。

  美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論­­—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。

  與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。

  但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。

相關連結
相關附件
※ 美國醫療保健領域對新興資料儲存系統理論「資料湖泊」(Data Lake)的應用, 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?no=57&tp=1&d=6621 (最後瀏覽日:2024/11/13)
引註此篇文章
你可能還會想看
OECD發布《數位化推進資料治理以促進增長和福祉》、《資料治理政策制定之數位化指南》報告

2023年5、6月經濟合作暨發展組織(Organisation for Economic Cooperation and Development, OECD)在邁向數位化計畫(Going digital Project)下陸續公布53個國家地區科學技術創新政策(science, technology and innovation policy)指標。OECD另一方面也提供許多政策工具供各政府參考,如2022年12月發布《數位化推進資料治理以促進增長和福祉》(Going Digital to Advance Data Governance for Growth and Well-being),並出版《資料治理政策制定之數位化指南》(Going Digital Guide to Data Governance Policy Making),協助應對轉型為數位治理時的潛在益處與風險。 《數位化推進資料治理以促進增長和福祉》指出,數位工具發展使資料蒐集、處理的效能大幅增加,邊際成本快速下降,為經濟、社會注入新驅動力。OECD觀察到COVID-19疫情危機中,各國政府藉多樣的資料有效追蹤疾病並做出相應對策;然而,也出現資料治理不當案例,如有勞動中介機構不慎在資料應用時加深性別勞動的不平等。因此,資料成為治理的戰略資產同時也需詳加了解資料多樣化的特性,在資料跨領域產製、流通與利用的過程中一併考量其益處與風險。 《資料治理政策制定之數位化指南》則點出三個發現,並提供相應策略做為各國政府治理參考。第一,關切資料開放同步產生的益處與風險,建議應確立風險管理的文化並建置透明且開放的資料生態系,以增加使用者的能動性,俾利人們自覺主動利用資料。其次,治理框架應平衡生態系中利害交疊的人民、企業團體、政府各部門等,藉契約範本、行為準則等機制確保決策各環節中利害關係人的參與機會和框架的一致性。第三,資料的邊際成本雖一再降低,然而進入門檻、後續管理的負擔仍重,政府應持續激勵資料的基礎建設投資,促進市場競爭並解決後進者的阻礙。

新興網路音樂流通模式之法律政策趨勢與實例研討

歐洲藥物管理局(European Medicines Agency,簡稱EMA)發佈針對準備與審查產品特性摘要(summaries of product characteristics,簡稱SmPCs)的指導方針

  EMA近日針對醫藥公司,在其欲申請人體藥物上市核准的申請文件中,針對如何準備與審查產品特性摘要之文件,提供醫藥公司相關的指導方針。   產品特性摘要不僅是醫藥公司之新藥物在向歐盟申請上市核准時所必須提供的重要文件,也是健康照護專業人員在獲知如何有效並安全使用藥物時的基本資訊來源。產品特性摘要在藥品生命週期存續時必須定時保持更新,以確保無藥物效用性與安全性疑慮的新問題發生;同時,其也是在藥物包裝上所必須含有的基本資訊,以確保藥物服用者能對其所服用的藥物有更多的了解和進行各類風險評估。   產品特性摘要文件,主要係依據歐盟2001/83/EC號指令第8(3)(j)條與歐盟第726/2004號法規第6(1)條之要求而提供。前述法規要求醫藥公司在提出藥物上市許可之申請時,必須遵循歐盟2001/83/EC號指令第11條之規定,附加產品特性摘要於申請文件,以供主管機關作為申請核駁之依據。在EMA針對產品特性摘要所提供的指導方針中,主要係以簡報與影片的方式,來教導醫藥公司如何在產品特性摘要的各個項目中,提供有關申請藥物更為完整與細部的背景資訊。其中,有關於解釋如何完成治療指示(therapeutic indication)與藥物藥效成分(pharmacodynamic properties of a medicine)之項目,於EMA的指導方針中,亦以明確的影片指導來協助醫藥公司提供高品質的產品特性摘要內容。   有鑑於治療人體疾病之藥物,對於人類生理與心理層面攸關重大,如何要求醫藥公司在提出人體藥物上市許可之申請時,能提供藥物完整的背景資訊,以確保從事健康照護之人員以及藥物服用者,完全了解藥物使用方式、效用與風險,則是主管機關無從推卸的責任。觀察EMA針對人體藥物之產品特性摘要製作出完整的指導方針,或許我國衛生機關也可效仿該種方式,來提供國內醫藥公司在提出藥物上市申請時之參考,以確保各項資訊透明並保護藥物使用者在「知」方面的權益。

歐洲專利局發布人工智慧與機器學習專利審查指南正式生效

  歐洲專利局(European Patent Office, 下稱EPO)於2018年11月1日發佈新版專利審查指南已正式生效。此次新版的焦點為Part G, Chapter II, 3.3.1關於人工智慧(Artificial Intelligence, AI)與機器學習(Machine Learning, ML)的可專利性審查細則。   在新版審查指南Part G, Chapter II, 3.3中指出數學方法本身為法定不予專利事項,然而人工智慧和機器學習是利用運算模型和演算法來進行分類、聚類、迴歸、降維等發明,例如:神經網路、遺傳演算法、支援向量機(Support Vector Machines, SVM)、K-Means演算法、核迴歸和判別分析,不論它們是否能夠藉由數據加以訓練,此類運算模型和演算法本身,因具有抽象的數學性質而不具專利適格性。   其中,EPO亦針對人工智慧和機器學習相關應用舉例下列特殊情形,說明可否具備發明技術特徵:   (一)可能具技術性 在心臟監測儀器運用神經網路辨別異常心跳,此種技術為具有技術貢獻。 基於低階特徵(例如:影像邊緣、像素數值)的數位影像、影片、音頻或語言訊號分類,屬於分類演算法的技術應用。   (二)可能不具技術性 根據文字內容進行分類,本身不具技術目的,而僅是語言學的目的(T 1358/09) 對抽象數據或電信網路數據紀錄進行分類,但未說明所產生分類的技術用途,亦被認定本身不具技術目的,即使該分類演算法的數據價值高(例如:穩健性)(T 1784/06)。   在新版審查指南中亦指出,當分類方法用於技術目的,其產生之訓練集(training set)和訓練分類器(training the classifier)的步驟,則能被視為發明的技術特徵。   近年來,人工智慧技術的應用分佈在我們的生活中,無論是自駕車、新藥開發、語音辨識、醫療診斷等,隨著人工智慧和機器學習技術快速發展,新版的審查指南將為此技術訂定可專利性標準,EPO未來要如何評判人工智慧和機器學習相關技術,將可透過申請案之審查結果持續進行關注。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

TOP