在現今資訊流通快速蓬勃發展的時代,巨量資料(Big Data)帶來效率與生產力等龐大效益已無庸置疑。相較於將資料以「資料倉儲」(Data Warehouse)模式儲存,「資料湖泊」(Data Lake)被廣泛視為巨量資料快速演進的下一步。
美國的醫療保健領域為因應巨量資料發展並提升醫療保健系統的透明度與有責性,美國醫療保險與補助中心(Centers for Medicare & Medicaid Services, CMS)於2013年底建立CMS虛擬研究資料中心(Virtual Research Data Center, VRDC),讓研究員能夠以安全有效率的方式取得並分析CMS的龐大醫療保健資料。此種資料倉儲模式會對進入的資料預先分類,並整合為特定形式以指導後續分析的方式。缺點在於為讓資料更易於分享,會進行「資料清理」(data cleaning)以檢測及刪除不正確資訊並將其轉換成機器可讀取格式,各資料版本會被強制整合為特別形式,但資料清理和轉換的過程會導致明顯的數據流失,對研究產生不利的限制。有鑑於此,為更有效益的應用巨量資料,Pentaho首席技術官James Dixon提出新的資料儲存理論—資料湖泊(Data Lake),此概念於2011年7月21日首先被討論於美國《富士比》雜誌中,目前在英美國家公部門和民間企業間已被熱烈討論。
與Data Warehouse最大不同在於Data Lake可包含「未被清理的資料」(unclean data),保持其最原始的形式。故使用者可取得最原始模式的資料,減少資源上處理數據的必要,讓來自全國各政府機關的資料來源更易於結合。Data Lake主要有四點特性:1.以低成本保存巨量資料(Size and low cost)2.維持資料高度真實性(Fidelity)3.資料易取得(Ease of accessibility)4.資料分析富彈性(Flexible)。儲存超過百萬筆病患資料的加州大學歐文分校醫療中心(UC Irvine Medical Center)即以Hadoop架構為技術建立了一個Data Lake,該中心能以最原始的形式儲存各種不同的紀錄數據直到日後需要被分析之時,可協助維持資料的來源與真實性,並得以不同形式的醫療數據進行分析項目,例如患者再住院可能性的預測分析。
但相對的Data Lake在安全性和檢視權限上也有一定的風險,尤其是醫療保健領域,因為這意味著病患的資料在個資生命週期裡隨時可被取得,因此資訊的取得應被嚴密控制以維持各層級的安全與保障,在建立安全的Data Lake之前,必須審慎考慮誰有資訊檢視權限以及透過什麼媒介取得Data Lake中的資料等問題。
經濟合作發展組織(Organisation for Economic Co-operation and Development,下稱OECD)於2023年11月公布「促進AI風險管理互通性的通用指引」(Common Guideposts To Promote Interoperability In AI Risk Management)研究報告(下稱「報告」),為2023年2月「高階AI風險管理互通框架」(High-Level AI Risk Management Interoperability Framework,下稱「互通框架」)之延伸研究。 報告中主要說明「互通框架」的四個主要步驟,並與國際主要AI風險管理框架和標準的風險管理流程進行比較分析。首先,「互通框架」的四個步驟分別為: 1. 「定義」AI風險管理範圍、環境脈絡與標準; 2. 「評估」風險的可能性與危害程度; 3. 「處理」風險,以停止、減輕或預防傷害; 4.「治理」風險管理流程,包括透過持續的監督、審查、記錄、溝通與諮詢、各參與者的角色和責任分配、建立問責制等作法,打造組織內部的風險管理文化。 其次,本報告指出,目前國際主要AI風險管理框架大致上與OECD「互通框架」的四個主要步驟一致,然因涵蓋範圍有別,框架間難免存在差異,最大差異在於「治理」功能融入框架結構的設計、其細項功能、以及術語等方面,惟此些差異並不影響各框架與OECD「互通框架」的一致性。 未來OECD也將基於上述研究,建立AI風險管理的線上互動工具,用以協助各界比較各種AI風險管理框架,並瀏覽多種風險管理的落實方法、工具和實踐方式。OECD的努力或許能促進全球AI治理的一致性,進而減輕企業的合規負擔,其後續發展值得持續追蹤觀察。
中國發布《國家中長期生物技術人才發展規劃(2010-2020年)》中國科學技術部與中國科學院等六個部門,於2011年12月8日聯合發布《國家中長期生物技術人才發展規劃(2010-2020年)》(以下簡稱「生技人才規劃」),期藉由具體政策措施之推動,充實國內生技人才資源,以促進生物技術及其產業蓬勃發展。 從中國國務院於2006年所提出的《國家中長期科學和技術發展規劃綱要(2006-2020年)》到科技部最近發布的《國家十二五科學和技術發展規劃》,均揭示「生物技術」為中國科技發展的重點領域。然而,現階段中國生技發展卻面臨了人才瓶頸,包括缺乏高層次創新人才、缺乏優秀創業型人才、人才資源開發投入不足,以及人才發展體制障礙待破除等問題,本規劃便在這樣的背景下誕生。 針對前述生技人才缺乏問題,生技人才規劃以「2020年時將中國打造成生物產業大國」為總體目標,分兩階段達成充實、培育生技人才的目的。第一階段為2011年至2015年,主要目標係在國內培育、造就一定規模的科技人才與創新團隊;第二階段為2016年至2020年,主要目標則為提高中國整體生技人才的素質,並建置5到10個具國際水準的國家生技實驗室。為達成前述目標,生技人才規劃宣示未來將分別實施以下各項政策措施,包括:持續給予優秀人才科研經費支援、鼓勵支持生物技術人才創業、加速生物技術人才在產學研各領域間的流動、制定優先支持生物產業技術人才發展的財政金融政策,以及吸引海外高層次生物技術人才回國創業或參與重大科研計畫等。 自2006年以來,中國於各個重大科技與產業政策規劃中,均將生物技術列為國家重點發展領域,顯見中國對於生技產業的重視,而根據往例,中國在發布重大國家政策規劃綱要以後,國務院各部門隨即會頒布相關法令及配套措施,以達成規劃綱要中所揭示的各項發展目標。因此,「生技人才規劃」頒布後,其後續相關的人才引進法制架構將如何呼應、達成綱要所訂的總體發展目標,值得持續觀察。
Google否認其核心網絡搜索技術涉及侵權針對Google 於去年11月被美國東北大學(Northeastern University)向德州東區聯邦法院馬歇爾分院 (the US District Court for the Eastern District of Texas in Marshall) 所提出之專利侵權訴訟案,指控Google的核心網絡搜索系統所使用的搜索技術涉嫌侵害東北大學所擁有的專利, Google 於日前指稱該訴訟無任何法律依據, 指出其搜索核心技術是由Google自行研發並主張東北大學的專利為無效之專利且即使東北大學的專利為有效,因原告於發現其所稱被告可能侵權之事實後,從未告知Google並已拖延太久時間(約兩年半)才提出訴訟,原告已喪失請求賠償的權利。Google請求法院駁回原告之訴,並宣告原告的專利為無效。如上述請求不被法院接受,Google 則請求陪審團審判 (由此可看出Google 不怕輸的決心)。 此案的原告為美國東北大學和Jarg公司。Kenneth Baclawski (前東北大學教授及Jarg公司創始人) 於1997年取得了編號為5,694,593之搜索技術相關的專利, 比Google公司的成立早了一年。原告訴請法院除去被告之侵害、並請求損害賠償及支付訴訟費用等。 對於Google的回應,Michael Belanger, Jarg公司的另一名創始人兼總裁Michael Belanger表示,由於全案已進入訴訟程序,不便加以評論。
合成資料(synthetic data)「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。 在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。 英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。 技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。