合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/07/05)
引註此篇文章
你可能還會想看
當網路梗圖爆紅 潛藏的著作權侵權疑慮

  今(2021)年一月中旬在美國總統就職典禮中,由法新社(Agence France-Presse, AFP)攝影記者Brendan Smialowski捕捉到參議員桑德斯(Senator Bernie Sanders)戴著連指手套、雙手環胸在場邊靜候的攝影作品,意外受到網友關注並製作成各式梗圖迷因(meme) 而爆紅。然而,在這些成千上萬的梗圖創作中,除非獲得原創作者的允許或落在著作權法的合理使用範圍,否則皆潛在隱藏了著作權侵權之可能性。   檢視本事件,將該攝影著作去背以取得「寧靜而坐的桑德斯圖像」,而將該去背圖像合成於各式情境場景,甚至架設梗圖產生器網站供其他網友上傳照片以製作更多衍生梗圖。多數在網路上分享之創意梗圖為博取網友一笑為目的,尚屬於著作權合理使用之範圍,然而當藉由該去背圖像或衍生梗圖進行廣告或促銷之用途,如將該去背圖像或衍生梗圖成為商品行銷元素、多次使用於廠商的社群媒體貼文中,將可能落入商業使用之爭議。桑德斯本人便將該去背圖像製作成運動衫進行慈善募款,儘管所得為慈善用途,但仍屬於商業使用;此外,該去背圖像未將原創進行任何轉化而直接轉印在衣服上,亦無法主張合理使用。儘管存有侵權疑慮,現階段攝影師似乎樂見其攝影作品成為各式梗圖而瘋傳,不過當開始有人藉由其攝影著作賺取金錢,情境可能就有所不同,攝影師將可能進行追究。   回顧過去類似將網路梗圖迷因進行商業使用,而產生著作權侵權爭議之案件。早如2009年美聯社(Associated Press)記者所拍攝前美國總統歐巴馬競選活動之肖像特寫,遭到前衛街頭塗鴉藝術家費爾雷(Shepard Fairey)在未經授權使用之前提下,將該攝影著作改作名為《希望(Hope)》之海報與各式商品並進行販售,美聯社因而對費爾雷提出侵權訴訟,儘管最後雙方和解,但兩者在過程中皆投入不少訴訟資源。其他案例如2019年體育流行文化媒體Barstool Sports與社群媒體Jerry Media等,皆因藉由擷取網路梗圖吸引網路社群觸及以進行消費等商業行為,遭到原創者檢舉而被迫刪除歷年貼文。 「本文同步刊登於TIPS網站(https://www.tips.org.tw )」

AT&T 控告資料掮客非法竊取客戶通話紀錄

  AT&T 在 8 月 24 日 控告 25 個販賣資料的掮客( data broker ),在其訴狀中指出大約有 2500 個客戶的個人紀錄被非法竊取, AT & T 已通知相關客戶已被通知並凍結其帳戶。   AT&T 並未於訴狀中明確地列出被告的名字,表示目前必須利用電腦郵件以及電腦 IP 位址來確認被告為哪些人, AT&T 宣稱一旦這些資料掮客經鑑定被確認後,除了賠償 AT&T 的損害之外,還須償還其販賣資料所獲得的不法利益。   PrivacyToday.com 網站的總裁表示,「買資料的人無處不在,但只有少數的人會非法竊取客戶資料,而這少部分的人大多都可以被追蹤的到。」   這並非唯一的案例,未來將會有越來越多相似的問題產生。被竊取的資料不僅僅只有電話紀錄,還有銀行、醫療或其他個人敏感資料,每分每秒都有人在想著如何取到私密資料並從中獲得不法利益。目前州及聯邦已經考慮立法,將有關電話紀錄的欺騙行為判定為不法行為。

歐洲將限制對孩童販售暴力遊戲軟體

  歐洲各國司法部長於1月16日與歐盟司法與內政委員會委員Franco Frattini進行會商,包括德國、英國、希臘、芬蘭、西班牙以及法國之司法部長皆同意支持建立全歐一致之共同規範以限制對孩童販售暴力遊戲軟體,並將據此檢視各國電腦軟體相關法制。   Franco Frattini委員過去基於「兒童保護應不分國界」之理念,曾建議建構以歐盟為範圍的標識規範,並鼓勵以兒童為銷售對象之遊戲業者建立自律規約,惟歐盟最後決議應交由各國政府自行規範。而Franco Frattini委員此次提案受到本屆歐盟輪值主席國-德國-司法部長Brigitte Zypries的支持,並指示相關規範建構之第一步,即是出版遊戲軟體分級摘要供家長參考,此摘要將很快於歐盟網站上公布。Zypries認為關於暴力遊戲的限制,歐盟應與國際進行合作溝通,由其針對美國與日本;Frattini則期望在歐盟27個會員國建構專門針對此類遊戲的標識規範,至於其他種類之遊戲則仍由各國政府自行管理。   目前國際間針對暴力遊戲限制,多數國家仍採取提供遊戲分級或相關指導守則之方式,於歐洲,僅英國與德國特別訂定法律加以規範,尤其在英國,遊戲軟體內容若具有對人類或動物之寫實暴力場景,或包含人類的性愛行為者,必須送交英國電影分級委員會(British Board of Film Classification,簡稱BBFC)審查。而美國已有部分州議會通過限制對未成年人販售遊戲的法律,但幾乎皆被「違反美國憲法修正條文第1條-言論自由保障」之理由成功推翻。

美國參議員力推再生能源投資稅額扣抵法案

  為鼓勵再生能源科技研發之投入,並確保美國人民能持續享有穩定之電力供給來源,同時增加更多的工作需求機會,美國參議員相繼於今年10月31日和11月10日提出Make it in America Tax Credit Act, S. 1764和Storage Technology for Renewable and Green Energy(STORAGE) Act, S. 1845兩個再生能源投資稅額扣抵法案。   在當今清潔能源技術(clean energy technology)之研發重要性與日俱增的趨勢下,為活絡與刺激美國清潔能源製造產業的成長,美國參議員期待透過S.1764這項法案的通過,額外投注美金5億元於先進製造者稅額扣抵計畫(Advanced Manufacturers Tax Credit program),進而達成強化清潔能源產業發展之目的,同時提供美國境內相關產業市場更多工作機會。另外,為克服再生能源如太陽能和風力等發電方式所具有的不確定性(如風力未達可發電標準等),如何儲存此類綠色能源之技術研發乃為現今各界戮力強化的領域。為集結並鼓勵更多研發資源投注於能源儲存系統(energy storage systems)的研發,美國參議員乃進而提出STORAGE Act,提供以下兩項優惠措施,包括:1. 能源製造商於投入與電網相關之能源儲存系統研發時,得享有20%之投資稅額扣抵(investment tax credit, ITC),其最高上限為美金4億元;2. 裝設商業和家用儲存系統時,得享有30%的投資稅額扣抵,其最高上限為美金1百萬元。   儘管目前上述兩法案仍於美國參議院財政委員會(Senate Finance Committee)進行法案審查,然而在各界對於能源產業儲存技術之提升與促進產業發展的期盼、法案所能帶來更穩定的電力供給與有效儲存再生能源等誘因之下,委員會的審查結果確實已引起各界的關注與期待。

TOP