合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2025/12/30)
引註此篇文章
你可能還會想看
Me Too醫療器材上市前許可指引

  美國食品藥物管理局(The Food and Drug Administration,簡稱FDA)於2014年7月更新並公布了醫療器材上市前許可(premarket notification)的指引(guidance)(該指引名稱為510(k) Program: Evaluating Substantial Equivalence in Premarket Notification Guidance for Industry and Food and Drug Administration Staff,以下簡稱510(k)指引),針對醫療器材業者將其生產製造的醫療儀器申請上市的過程做了新的調整及規範。此指引主要是讓業界及FDA人員了解FDA在評估醫療器材申請過程中所評估的因素及要點,並藉由FDA在審查醫療器材的實務規範及審查標準來當作標準並訂定510(k)修正,以提高510(k)評估的可預測性、一致性及透明度,讓業界有一定的遵循標準。雖然FDA的指令文件並不受法律強制規範,但可供醫材業者更清楚FDA所重視的審查程序及內容。   歐盟對醫療器材上市前之審查亦有相關指令,分別為一般醫療器材指令(Medical Device Directive,簡稱MDD)、活體植入醫材指令(Active Implantable Medical Devices Directive,簡稱AIMDD)及。歐盟規定醫療器材在上市前,必須符合上市前所規定之內容以正當在歐盟、歐洲經濟地區(European Economic Area)及瑞士市場販售使用。然而特別的是,不同於美國上市前的醫療器材由主管機關FDA進行審查,歐洲藥物管理局(The European Medicines Agency of the EU)並不參與醫療器材的審核程序,而是交由歐盟會員國的私人認證機構對醫療器材做評估。

何謂芬蘭「SHOKs」?

  2006年芬蘭研究創新委員會在其創新政策倡議中指出,為結合產學研就重大發展領域進行長期合作,加速該國公私合作投入創新過程 Public-Private Partnerships (PPP),故以非營利性有限公司型態成立科學技術創新策略中心(Strategic Centres for Science, Technology and Innovation, SHOKs)。   SHOKs的計畫經費主要由芬蘭技術處(Tekes)提供補助,惟政府補助比例上限:最高上限75%,必要時Tekes可減少補助以符合上述比例。2008年到2014年用於補助研究計畫金額總和為5.45億歐元。   SHOKs科研計畫成果智財權歸屬及運用規定概述如下: 一、既有智慧財產權歸屬及運用: 1.參與者共同執行研究計畫不影響其既有智慧財產權之歸屬。 2.參與者之既有智慧財產權,若屬其他共同參與者執行計畫有必要者,應依無償或FRAND原則對其他共同執行研究計畫之參與者進行授權。 3.與執行計畫目的無關之既有智慧財產權使用,應另行協商授權事宜。 二、計畫成果智慧財產權歸屬: 1.歸屬於產出成果之一方,但如成果是多方參與者共同產出,原則上共有,但可另約定僅歸屬一方。 2.非SHOKs股東對研發成果產出有重大貢獻者,該研發成果亦可歸屬於該非SHOKs股東。 三、計畫成果智慧財產權之運用: 1.參與者為研究機構者,應向欲運用其研發成果之企業參與者進行移轉或授權時,收取相當於市場價格的補償金。 2.研究計畫參與者得無償取得相同及全球範圍之成果使用權,但除研究機構外不得再授權。

加拿大CRTC制訂無線通訊服務契約之準則

  加拿大廣播電視和電信委員會(Canadian Radio-television and Telecommunications Commission,CRTC)將制訂新的準則,規範關於加拿大電信業者無​​線通訊服務契約之條款內容,所謂的無線通訊服務包含行動電話以及其他個人行動裝置,該準則之制訂並將透過網路諮詢收集公眾意見。   在多數的國家,無線服務已經與民眾日常生活密不可分,但難以理解的契約文字、有問題的條款、高昂的漫遊費用或繁重的契約解除費用等事項,時常是消費者對無線通訊服務抱怨的來源。加拿大無線通訊協會(Canadian Wireless Telecommunications Association,CWTA)曾在2009年推出一個業者自律的行為守則,在沒有政府管制的前提下,希望能提供較好的消費者保護。   然而由於加拿大各地方政府的消保規範不一致,除了對消費者權益保護不足外,相關無線通訊業者也感到難以遵行,因此於2012年3月呼籲應由中央管制機關制訂統一的規範。2012年10月,CRTC審視無線通訊市場,認為服務契約條款內容對民眾確實影響重大,許多加拿大民眾表示,對行動電話或其他個人行動服務的許多契約內容感到困惑,如去年(2011),消費者有關無線通訊服務的投訴量,即相當於其他電信服務之總和。故CRTC決定制定具有約束力的準則,幫助消費者選擇無線通訊服務。 本次CRTC邀請加拿大民眾透過網路討論以下問題: 關於無線服務契約之準則應該包含哪些內容? 有關的業者違反準則時,應如何投訴解決呢? 無線服務契約準則應如何推動及審查,以確保其能正常運作呢?   對此,CRTC主席Jean-Pierre Blais表示:「我們希望加拿大民眾參加網路討論,表達對於無線服務契約準則之意見,例如如何使服務契約能更清晰、更容易理解等。」在這份準則制訂完成後,將提供無線通訊服務之業者在制訂服務條款時,有一個明確的、一貫的遵循內容。

英國公布包含爭議性斷網條款的數位經濟法案(Digital Economy Bill)持續引發反彈聲浪

  在眾多反對聲浪下,英國政府仍然發佈了包含爭議性斷網條款的數位經濟法案,該法案賦予國務大臣要求ISP業者對於疑似非法侵權檔案分享者斷網之權力,在沒有法院介入審查的前提下,得要求ISP業者對於涉嫌侵權的使用者斷網。法案公布後持續引發眾多反彈聲浪。   ISP業者如:TALK TALK以及BT等,都對於這項規定持續表達反對的立場。ISP業者認為此一作法不但有違無罪推定的原則,且對於ISP業者而言,也增加了行政與費用上的負擔;但相對的,音樂唱片業者則表現出樂見其成的態度,認為此一規定將有助於英國音樂產業的永續發展。   雖然法案內容大多來自於以振興英國數位經濟為目的Digital Britain報告,但斷網的作法並不是該報告所提出的建議。英國商務大臣Mandelson表示,此一條款將保護英國創意社群免於受到網路侵權的威脅,並獲得應有的報酬,同時也提供新的選擇給網路消費者。   歐盟希望透過電信產業規範的重整,禁止成員國通過未經法院審查的斷網條款,要求斷網必須要有先行程序,但給予成員國的卻是像設定三振條款作法的彈性,不見得是斷網法院審查前置的程序,因此,歐盟的相關指令對於英國的斷網規定未必會有阻擋的效果。

TOP