合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/07/05)
引註此篇文章
你可能還會想看
美國第9巡迴上訴法院於2015年7月6日宣布Multi Time Machine v. Amazon案的見解

  美國第9巡迴上訴法院(9th Circuit)於2015年7月6日對外宣布Multi Time Machine v. Amazon案的見解,其推翻地方法院看法,認定被告Amazon公司提供的服務有侵害原告Multi Time Machine公司商標權之虞。   本案原告Multi Time Machine公司是一家製作手錶的廠商,在被告Amazon公司的網站上有提供零售服務。原告認為被告網站提供之服務,可使消費者搜索網站內的物品,但其所得之結果(含圖片)卻容易令人混淆,如搜尋原告的MTM手錶(為Multi Time Machine之商標),會將商標權人及其他廠商的商品都包含在內,導致消費者誤認為其他廠商手錶也是由MTM製造,進而購買非原告公司生產之手錶。原告因而向地方法院提出訴訟,認為被告Amazon公司侵害其商標權,違反聯邦法典內之Lanham Act的第1114條(1)(a)及第1125條(a)(1)規定。但洛杉磯地方法院認為被告行為並未侵害商標權,原告不服故提起上訴。   第9巡迴上訴法院採用1979年AMF v. Sleekcraft Boats案認定之方式,並於2011年Network Automation v. Advanced System Concepts案後發展出的測試標準,用以判斷有無侵害商標權。其標準包含:1.商標的強度、2.商品近似或相關連程度、3.與商標的相似性、4.實際混淆之證據、5.銷售管道、6.消費者在意程度、7.被告意圖、8.擴展之可能性。上訴法院認為,本案除了3、5、8三項較無關外,其餘5項因素經法院研究結果,原告商品在被告網站上販售時,1、2、7於原告影響較大,而4、6是被告提供服務(即供消費者購買)時須在意的。因此,綜合判斷之結果,被告行為已可能侵害原告之商標權,故推翻地方法院之判決結果,發回地方法院續行審理,本案後續判決進展及結果實值持續觀察。

美國參議院於2022年4月提出《演算法問責法案》對演算法治理再次進行立法嘗試

  《演算法問責法案》(Algorithmic Accountability Act)於2022年4月由美國參議院提出,此法案係以2019年版本為基礎,對演算法(algorithm)之專業性與細節性事項建立更完善之規範。法案以提升自動化決策系統(automated decision systems, ADS)之透明度與公平性為目的,授權聯邦貿易委員會(Federal Trade Commission, FTC)制定法規,並要求其管轄範圍內之公司,須就對消費者生活產生重大影響之自動化決策系統進行影響評估,公司亦須將評估結果做成摘要報告。   《演算法問責法案》之規範主體包括:(1)公司連續三年平均營業額達5000萬美元,或股權價值超過2.5億美元者,並處理或控制之個人資料超過100萬人次;以及(2)公司過去三年內,財務規模至少為前者之十分之一,且部署演算法開發以供前者實施或使用者。ADS影響評估應檢視之內容包括:   1.對決策過程進行描述,比較分析其利益、需求與預期用途;   2.識別並描述與利害關係人之協商及其建議;   3.對隱私風險和加強措施,進行持續性測試與評估;   4.記錄方法、指標、合適資料集以及成功執行之條件;   5.對執行測試和部署條件,進行持續性測試與評估(含不同群體);   6.對代理商提供風險和實踐方式之支援與培訓;   7.評估限制使用自動化決策系統之必要性,並納入產品或其使用條款;   8.維護用於開發、測試、維護自動化決策系統之資料集和其他資訊之紀錄;   9.自透明度的角度評估消費者之權利;   10.以結構化方式識別可能的不利影響,並評估緩解策略;   11.描述開發、測試和部署過程之紀錄;   12.確定得以改進自動化決策系統之能力、工具、標準、資料集,或其他必要或有益的資源;   13.無法遵守上述任一項要求者,應附理由說明之;   14.執行並記錄其他FTC 認為合適的研究和評估。   當公司違反《演算法問責法案》及其相關法規有不正當或欺騙性行為或做法時,將被視為違反《聯邦貿易委員會法》(Federal Trade Commission Act)規定之不公平或欺騙性行為,FTC應依《聯邦貿易委員會法》之規定予以處罰。此法案就使用ADS之企業應進行之影響評估訂有基礎框架,或可作為我國演算法治理與人工智慧應用相關法制或政策措施之參酌對象,值得持續追蹤。

「液態高效價大麻二酚」(CBD)是否具備美國專利法上之新穎性?

  所謂「大麻」實為大麻屬植物,其中除了較常耳聞的娛樂用大麻外,尚包含工業用大麻(俗稱火麻,hemp),兩者區分標準在於四輕大麻酚(THC)成分高低,後者THC成分小於0.3%,難以做為娛樂用,由於大麻於過去曾有相當時間遭各國所禁止,因此與其有關之研究、專利申請案之數量可謂罕有。然而,近年來隨著各國逐漸放寬對大麻的限制,諸多藥商陸續投入以大麻為成分之藥品開發中,並執此取得專利申請,從而引發相關人士提出此種專利究竟是否具備新穎性之疑問。   日前於2018年7月間,美國即有藥商對此提出專利訴訟,全案大致背景如下:United Cannabis Corp.(下同UCANN)對Pure Hemp Collective Inc.(下同Pure Hemp)提出專利侵權訴訟,指稱Pure Hemp所研發之多款含CBD成分之藥物均侵害其編號9,730,911之專利(下同911專利)。而Pure Hemp則反駁,並稱911專利其中第1、5、16、20、25項聲明將此一專利範圍擴張至所有以液體型態存在之高效價大麻二酚(liquid form of high-potency cannabis),因此若其他藥品商以此一成分生產其他藥物,不論作用、成效是否相同,均可能侵害UCANN之專利權。   本案爭點在於:「以大麻中,早已廣泛流通於市面之大麻二酚(CBD)製成之藥品,是否具備專利法上之新穎性?」。對於系爭專利成分「液態高效價大麻二酚」,事實上已於美國銷售多時,從而此一成分是否具備「新穎性」即容有疑問。業界相關人士指出,美國專利及商標局(U.S. Patent and Trademark Office,下同當局)未審酌上開涵蓋過廣之專利聲明以及未顧及系爭專利成分已於市場流通多年此二種情況,即核發專利許可證,可以說是一種行政怠惰。同時間,也有論者較為持平的認為這可能得肇因於大麻專利申請案之前例過少,使得當局專職審核是否具備新穎性要件之相關人員要難查知。此種說法雖然稍有為當局開脫之嫌,但實際上也間接彰顯了專利審查人員於核發此種專利時,有判斷不周的情形。無論如何,目前全案尚在審判中,詳細結果,均有待判決做成後方知一二。

產業創新條例因應放寬公司研發抵減、加強留才制度之修正草案

TOP