合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=1 (最後瀏覽日:2024/11/23)
引註此篇文章
你可能還會想看
澳洲聯邦法院判決藥品仿單受著作權保護

  澳洲聯邦法院近日在Sanofi-Aventis Australia Pty Ltd與Apotex Pty Ltd一案中([2011] FCA 846),首次針對記載藥品資訊的仿單著作權侵權問題進行處理。法院判決Sanofi的Leflunomide藥品仿單含有Sanofi員工相當的知識與判斷,係Sanofi員工的共同著作,受到著作權的保護。法院並進一步判決Apotex的Leflunomide藥品仿單重製了Sanofi 的Leflunomide藥品仿單的重要部分,在係爭案件中,亦無法推斷出有默示的授權,因此判決Apotex侵犯了Sanofi的Leflunomide藥品仿單的著作權。   儘管藥品仿單的複雜問題目前仍備受爭議與討論,澳洲將在醫療物品修正法案(Therapeutic Goods Legislation Amendment (Copyright) Act 2011)中,針對相關問題加以釐清。前述修正案針對1968年著作權法(Copyright Act 1968)新增44BA條,該條項賦予在1989年醫療產品法(Therapeutic Goods Act 1989)25AA條款下有關醫藥產品資訊的合理使用範疇,明確規範包括供給、重製、發行、散佈/傳播(communicating)、改作等利用全部或部分醫療藥品資訊的行為不侵害產品資訊的著作權。

英國上議院人工智慧專責委員會提出AI應用影響報告並提出未來政策建議

  英國上議院人工智慧專責委員會(Select Committee on Artificial Intelligence)2018年4月18日公開「AI在英國:準備、意願與可能性?(AI in the UK: ready, willing and able?)」報告,針對AI可能產生的影響與議題提出政策建議。   委員會建議為避免AI的系統與應用上出現偏頗,應注重大量資訊蒐集之方式;無論是企業或學術界,皆應於人民隱私獲得保障之情況下方有合理近用數據資訊的權利。因此為建立保護框架與相關機制,其呼籲政府應主動檢視潛在英國中大型科技公司壟斷數據之可能性;為使AI的發展具有可理解性和避免產生偏見,政府應提供誘因發展審查AI領域中資訊應用之方法,並鼓勵增加AI人才訓練與招募的多元性。   再者,為促進AI應用之意識與了解,委員會建議產業應建立機制,知會消費者其應用AI做出敏感決策的時機。為因應AI對就業市場之衝擊,建議利用如國家再訓練方案發展再訓練之計畫,並於早期教育中即加入AI教育;並促進公部門AI之發展與布建,特別於健康照顧應用層面。另外,針對AI失靈可能性,應釐清目前法律領域是否足以因應其失靈所造成之損害,並應提供資金進行更進一步之研究,特別於網路安全風險之面向。   本報告並期待建立AI共通之倫理原則,為未來AI相關管制奠定初步基礎與框架。

點對點分享軟體導致資料外洩

  位於美國紐約州的一家知名藥廠2007年9月初宣佈其已確認大約有34000名員工的個人資料從某位員工的電腦外洩並遭人非法下載。   整起事件係導因於一位藥廠的員工自行於公司配發的筆記型電腦上安裝未經授權的檔案分享軟體,導致大約有34000名員工的個人資料在網路上被人下載流傳。至於因這起事件遭到外洩的個人機密資料包括員工姓名、社會福利號碼、出生日期、電話號碼和銀行信用狀況等等。   美國司法部門目前已針對這起資料外洩事件展開調查,並要求這家藥廠針對他們用來防止資料外洩的處理方式以及事件發生時的所有相關應變措施提出報告。根據調查,事實上早在今年7月10日這家藥廠即已發現這起大量個人資料外洩事件,卻遲至8月24日才以電子郵件通知資料外洩的被害人,反應時間長達六個星期之久,導致損害持續擴大。   由這起藥廠員工個人資料外洩事件正可顯示點對點(P2P)網路分享軟體確實潛藏著嚴重的資訊安全風險。透過此類軟體,網路駭客得以完整地掃描他人電腦硬碟中的檔案,讓不知情使用者的機密資料隨時處於高度的風險當中。   點對點檔案分享軟體(P2P),當初開發的目的在於集合眾人電腦之力,增加網路的連結數量,進而快速傳輸檔案。但以此作為入侵他人電腦的工具,甚至未經允許盜取他人的電腦中檔案資料等之新電腦犯罪型態,值得相關主管機關注意。

世界智慧財產權組織(WIPO)發布《2021年全球創新指數報告》

  世界智慧財產權組織(WIPO)於2021年9月20日發布了第14版的《全球創新指數報告》(Global Innovation Index, GII),本報告以81項指標對全球132個經濟體的創新生態系進行評鑑,前十名分別為瑞士、瑞典、美國、英國、韓國、荷蘭、芬蘭、新加坡、丹麥、德國,亞洲表現最好的是韓國。   本報告指出,在COVID-19疫情期間,世界各國政府和企業對創新的投資並未減少,且健康相關產業、綠色相關產業、數位科技相關產業最受到矚目。   此外,今年的報告中新增了一個專章「全球創新追蹤」(global innovation tracker),其中針對科學與創新投資(science and innovation investments)這一組指標進一步的分析發現,2020年全球在科學出版數量增加了7.6%、在研發支出增加了8.5%、在創業投資增加了5.8%、在國際專利申請數量增加了3.5%。與2019年相比,國際專利申請數量以中國大陸增加16%最多,美國、韓國的申請數量也都穩定成長,但日本與多數歐洲國家的申請數量皆屬下降;而專利申請的技術領域以醫療技術、製藥技術、生物技術為主。整體而言,雖然疫情為全球經濟帶來嚴峻挑戰,但各國對於科學與創新的投資經費仍持續增加。

TOP