合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/22)
引註此篇文章
你可能還會想看
歐盟提出「一般資料保護規章」(草案)並審議,以因應未來聯網環境趨勢

  為因應近來智慧聯網(IoT)、巨量資料及雲端運算發展趨勢,為強化線上隱私權利及促進歐盟數位經濟的發展,歐盟執委會於2012年1月25日對於資料保護指令提出新的規章草案:「保護個人有關個人資料處理及自由流通規章(一般資料保護規章)」(Proposal for a REGULATION OF THE EUROPEAN PARLIAMENT AND OF THE COUNCIL on the protection of individuals with regard to the processing of personal data and on the free movement of such data (General Data Protection Regulation)),以取代並廢除(repealed)原有「個人資料保護指令」規範,並修改(amend)「隱私與電子通訊指令」,預計在2013年6月進入歐洲議會、理事會及執委會的三方協商,若順利將在2014年通過,並在2016年生效。   「一般資料保護規章」(草案)中對於聯網環境及智慧化設備運行之因應,重要規範內容有(1)追蹤(tracking)與特徵分析(profiling):訂定第20條「特徵分析措施」(Measures based on profiling)規範條文,保障每個當事人皆有主張不被採取特徵分析措施(如個人傾向、工作表現、財務狀況、位址、健康、個人喜好、可信度)而致產生法律效果或顯著影響該個人的權利(2)被遺忘及刪除權(right to be forgotten and to erasure):訂定第17條,創設新的權利「被遺忘及刪除權」,用以幫助民眾處理線上資料,當其不希望自己的資料被利用且無合法理由保留時,資料將被刪除(3)資料可攜權利(the right to data portability):訂定第18條,當資料處理是以電子化方法,且使用結構性、通用的格式時,資料當事人有權利可以取得該結構性、通用格式下的個人資料,更容易自不同服務提供者間移轉個人資料。(4)當事人的同意要件:第4條第8款明定,不論何種資料處理情況時所需的同意,增列必須是明確(explicitly)同意之要件(5)「設計階段納入隱私考量」(privacy by design)、「預設隱私設定」(privacy by default):訂定第30條,要求資料控制者及處理者應實行適當的技術性、組織性措施,並考量科技發展水準,制定特定領域及特定資料處理情況的標準及條件,並且資料保護將會從產品及服務最初發展、設計時就考量隱私問題應對「設計階段納入隱私考量」及「預設隱私設定」提出標準及條件。   歐盟此次對於「一般資料保護規章」(草案)的修法進程,以及世界各重要國家的立場及反應態度,均值得後續密切觀察研析。

生物遺傳資源歸屬之國際規範分析

.PHARMACY頂級域名(gTLD)防止偽藥流竄

  仿冒藥品在網路通路的銷售流通向來十分猖獗,根據國家藥事管理全會(National Association of Boards of Pharmacy, NABP)統計,全球約有97%的藥品銷售網站販賣仿冒藥品。職業醫療服務機構(Occupational Medical Services, OMS)也指出,2010年全球的偽劣藥品約有750億美元的市場規模,而消費者於網路上買到的藥品約有50%都是仿冒藥品。全球每年約奪走七十萬人命的肺結核和瘧疾,其中約二十萬人的死亡主因並非疾病,而是服用了仿冒藥品。   為了阻止仿冒藥品在網路銷售通路的氾濫,NABP申請並通過審核,成為新創立的.PHARMACY頂級域名(gTLD)的註冊資料庫管理者(Registry Operator),負責.PHARMACY頂級域名的網域名稱資料管理。.PHARMACY頂級域名提供藉由網路銷售處方藥、處方藥相關產品、藥事服務或資訊的公司提出申請。公司提出域名申請時,會由NABP負責審核,以確保使用.PHARMACY頂級域名販售藥品的網站,都符合相關管制標準及當地法規,包含網站所設立的地點及藥品銷售或運送地點等。為執行.PHARMACY頂級域名計畫,NABP下設不同功能的常設或非常設組織,例如在.PHARMACY開放申請的國家,如法國、日本及德國等,設立國家標準制定委員會(National Standard Setting Committees),於該國家的公司提出.PHARMACY頂級域名申請時,為NABP提供該國藥事相關法規的協助,以利NABP審核頂級網域名稱的申請案件。   .PHARMACY頂級網域名稱於2014年11月開放申請。未來,世界各地的消費者在網路購買藥品時,只要認明有後綴.PHARMACY的網址,就不用擔心會購買到偽劣藥品了。

因網路詐欺受騙的銀行儲戶控告銀行

  美國佛羅里達州一名商人日常透過網路管理其帳戶資金出入,其資金主要是在美國與中南美洲間流動。該名商人發現其銀行帳戶有異常的資金流向拉脫維亞而向警方報案,經調查發現他的電腦被植入名為Coreflood的特洛伊木馬程式,致其銀行帳戶存取密碼被盜用。該名商人認為銀行明知網路上有此種危險而怠於告知客戶,且銀行明知拉脫維亞以網路犯罪猖獗而著稱,對於其帳戶內大筆的異常資金流出亦疏於防範,爰對銀行提起訴訟。據信,本案為銀行儲戶因受網路詐欺而控告其銀行的首例。

TOP