合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/12/08)
引註此篇文章
你可能還會想看
英國「創新持續貸款」

  英國創新局(Innovate UK)於2020年11月8日公布「創新持續貸款」(Innovation Continuity Loans)申請指南,作為COVID-19疫情應對計畫的工作項目之一,英國創新局將提供2.1億英鎊的貸款予在疫情影響下持續進行創新活動之國內中小企業。本貸款目標對象為因疫情導致出現資金缺口的中小企業,每一間公司將可申請25萬至160萬英鎊不等之創新持續貸款。   「創新持續貸款」源自2017年的創新貸款實驗計畫(Innovation loans pilot),藉由七項創新競賽篩選出約100位申請人,提供總額約7500萬英鎊的創新貸款;此次創新持續貸款則不採競賽方式,而是針對受疫情影響的中小企業創新活動,透過審查機制提供貸款予申請人。申請人資格為正在執行受創新局補助之創新活動者、過去36個月曾受創新局補助而目前正在進行其他創新活動者或是過去36個月並未獲得創新局補助之創新活動的執行、完成或延續性工作者,且確實因COVID-19疫情影響出現資金短缺之中小企業,即可向創新局申請創新持續貸款。   創新局將藉由審查申請者提交至今的工作成果與品質、受疫情影響程度與資金需求情形,評估該創新活動的後續發展潛力,向合格的申請人提供年利息僅3.7%的創新持續貸款。合格的申請人能在2022年3月31日或約定日期前,直到產品首次商業銷售為止,分階段領取貸款,以年利率3.7%計息;產品首次商業銷售後可額外有兩年的寬限期,在產品首次商業銷售或寬限期結束後五年內,申請人必須償還貸款,未償還部分則改採年利率7.4%計息。藉由低利貸款的資金挹注,協助從事新創活動之英國中小企業得以紓困以度過疫情難關。

美國民權辦公室發布遠距醫療隱私和資訊安全保護相關建議

美國衛生及公共服務部(U.S. Department of Health and Human Services, HHS)民權辦公室(Office for Civil Rights, OCR)於2023年10月18日發布了兩份文件,針對遠距醫療情境下的隱私和資訊安全保護,分別給予病人及健康照護服務提供者(下稱提供者)實務運作之建議。本文主要將發布文件中針對提供者的部分綜合整理如下: 1.於開始進行遠距醫療前,提供者應向病人解釋什麼是遠距醫療及過程中所使用的通訊技術。讓病人可瞭解遠距醫療服務實際運作方式,若使用遠距醫療服務,其無須親自前往醫療院所就診(如可以透過語音通話或視訊會議預約看診、以遠端監測儀器追蹤生命徵象等)。 2.提供者應向病人說明遠距醫療隱私和安全保護受到重視的原因。並且向病人告知為避免遭遇個資事故,提供者對於通訊技術採取了哪些隱私和安全保護措施,加以保護其健康資訊(如診療記錄、預約期間所共享資訊等)。 3.提供者應向病人解釋使用通訊技術對健康資訊帶來的風險,以及可以採取哪些方法降低風險。使病人考慮安裝防毒軟體等相關方案,以防範病毒和其他惡意軟體入侵;另網路犯罪者常利用有漏洞之軟體入侵病人裝置,竊取健康資訊,因此可於軟體有最新版本時,盡快更新補強漏洞降低風險;若非於私人場所預約看診,病人則可透過調整裝置或使用即時聊天功能,避免預約資訊洩漏。 4.提供者應協助病人保護健康資訊。確保病人知悉提供者或通訊技術供應商聯絡資訊(如何時聯絡、以什麼方式聯絡等),使病人遭網路釣魚信件或其他方式詐騙時可以加以確認;也應鼓勵病人有疑慮時都可洽詢協助,包括如何使用通訊技術及已採取之隱私和安全保護措施等。 5.提供者應使病人了解通訊技術供應商所採取之隱私和安全保護措施。告知病人通訊技術供應商名稱、採取之隱私和安全保護措施,及如何得知前開措施內容;使病人了解進行遠距醫療時是否使用線上追蹤技術。 6.提供者應告知病人擁有提出隱私投訴的權益。若病人認為自身健康隱私權受到侵犯,得透過OCR網站進行投訴。

英國因應自動駕駛車輛上路,提出新保險責任制度

  英國政府為達成於2021年使完全無須人為操控的自動駕駛車輛可在英國公路上行駛之目標,提出新保險責任制度。透過自動駕駛和電動車輛法案的提出,將為自動駕駛車輛可合法上路行駛鋪路,從而帶動自動駕駛車輛產業發展。整體而言,一旦此立法正式通過,除了代表英國政府正式樹立自動駕駛車輛的保險框架里程碑外,也象徵英國朝向2021年的目標又更邁進一步。

Google數位圖書館計劃面臨著作權法爭議

全球最大搜索引擎 Google公司於去年12月中宣布,已與美國紐約公共圖書館以及哈佛大學、史丹福大學、密西根大學、牛津大學合作,將數百萬冊藏書數位化讓網友免費瀏覽。此一計畫預計花十年時間建構,在2015年啟動,經費約估1億5000萬到2億美元之間 (The Google Print Program)。雖然此一構想極具創意,但是由於將館藏圖書數位化牽涉著作權爭議,因此由125家非營利學術出版機構組成的美國大學出版協會(AAUP)已針對若干疑點去函,希望Google能釐清著作權法上之疑慮,以利整體計劃之推動。   AAUP所持最重要依據係美國著作權法第107條有關合理使用之規定。AAUP質疑,以Google如此大規模,就圖書內容性質不加以區分,全面性的圖書數位化工程,恐怕無法符合著作權法所訂出的合理使用標準。蓋著作權法有關是否符合合理使用之界定標準,是以事實情況及個案之判別方式為主,故無法想像Google如何在未進行個別之判斷前,便能夠概括性的依此而主張其享有合法權利。事實上,Google之主張與法院實務界之認知存在極大落差。   此外, Google的數位圖書館計畫在許多細部執行事項上,仍存有許多疑點,導致原先欲加入的AAUP會員,無法確保圖書內容完成數位化後,對於以銷售書籍及授權為主要營收來源之出版社,恐會產生造成市場排擠效果之憂慮。   藉由數位技術雖然可以挑戰人類夢想的極限,但過程中涉及的法律層面問題,卻相當程度羈絆了夢想前進的速度。 Google的數位圖書館計劃再次印證了新興技術與現行法規不協調的窘況。就現有事實資料以觀,Google若未能與學術出版商妥善安排著作權引發之爭議,此一計畫未來是否能順利執行,恐怕存有極大疑問。

TOP