合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=55&tp=5 (最後瀏覽日:2026/05/12)
引註此篇文章
你可能還會想看
韓國政黨提出法案,建議修改「海關法」禁止營業秘密侵權商品之進出口

據韓國媒體於2024年2月13日報導指出,越來越多韓國企業面臨因為營業秘密的外洩而導致企業虧損的問題,鑒於目前的韓國海關扣留制度(Customs Retention System)僅適用於對外公開的智慧財產權(如商標與專利),多方呼籲應將侵害企業內部營業秘密之侵權商品納入海關法的管制中,甚至有政黨提出法案,建議擴大海關法的適用範圍,禁止侵害韓國企業營業秘密的商品進出口。 該篇報導藉一起正在調查中的營業秘密侵害案件為例,涉案之韓國槍械零件製造商,以「前員工在職時,透過個人電子郵件與客戶進行業務往來,取得企業營業秘密資訊(包括設計圖),並於離職後,創設一間A企業並涉嫌出口利用獲得之營業秘密生產的侵權商品」為由,於2023年向該名離職員工提起訴訟,該案後經政府機關調查,最終於2024年2月底進行首次聽證會。 針對上述案件,國防產業相關人士(Defense Industry Insiders)指出,因為韓國海關僅得依法禁止專利、商標之侵權商品進出口,營業秘密的侵權商品在爭議案件調查期間仍可持續進出口。對此,韓國政黨提出了一項法案(下稱系爭法案),旨在修改海關法,從而允許海關扣留「侵害營業秘密的商品」以及「侵害國家指定的先進工業和國防技術的商品」。 該篇報導也指出,雖韓國海關局對於修法基本上持贊成態度,但也有相關疑慮,如:可能會因為海關扣留範圍的擴大被濫用於壓制競爭行為;相較於容易識別的商標侵權案,營業秘密的範圍很廣,界線模糊,可能造成海關難以立即識別侵權。 綜上,即使系爭法案有利於營業秘密侵權救濟,但仍有上述疑慮有待解決,故本議題仍值得持續關注。而本文仍建議相較於事後救濟,企業可參考資策會科法所發布之「營業秘密保護管理規範」,透過PDCA循環建置系統性營業秘密規範,協助企業從事前防範營業秘密侵權風險,始為企業長久經營之計。 本文同步刊登於TIPS網(https://www.tips.org.tw)

美國馬里蘭州法案禁止雇主近用(access)其員工及應徵者之社群網站資訊

  日前報導指出,在美國有部分的企業在面試時要求應徵者交出其臉書(Facebook)帳號及密碼,以供企業做為評估是否錄取之參考。企業這樣的舉動,遭論者類比為要求應徵者交出自家大門的鑰匙。據悉,企業此一傾向在九一一後有明顯增加之趨勢。   為因應此一趨勢所帶來的隱私疑慮,馬里蘭州在四月初已立法(撰稿時,此法尚待該州州長簽署)禁止雇主要求瀏覽或進入員工與應徵者的臉書或其他社交網站頁面,當然也包括禁止雇主取得員工或應徵者的臉書或社交網站帳號與密碼,或企圖成為員工及應徵者的「朋友」。   馬里蘭州此一立法,除了在保護員工或求職者的隱私之外,也是為了保障言論自由;且此一看似亦在保護應徵者及員工之法律,其實對企業亦有助益:其使原本處於法律灰色地帶的爭議問題明朗化,因而可使企業瞭解應如何因應,而可避免許多不必要的訴訟。   雖然輿論對此立法有許多贊同之聲,但亦不乏反對此一立法者,例如馬里蘭州的許多商業團體即認為瞭解求職者的社交活動,對於剔除不適任的應徵者,有其必要。   馬里蘭州此一立法乃率全美之先,其他各州可能亦陸續會提出類似法案。

歐盟執委會發布《2019歐盟產業研發投資計分板》,美國和歐盟為世界研發投資最主要地區

  歐盟執委會(European Commission, EC)於2019年12月18日發布《2019歐盟產業研發投資計分板》(The 2019 EU Industrial R&D Investment Scoreboard)。產業研發投資計分板是歐盟每年出具一次的報告,2019年計分板報告包含2500家在2018-2019年間投入最多研發資金的企業,分別位於全球44個國家/地區,每一企業的研發投資金額超過3000萬歐元,總計約為8234億歐元,為全球研發支出的90%。在這2500家企業中,551家來自歐盟公司,為投資總額的25%;769家來自美國,為投資總額的38%;318家來自日本,佔13%;507家中國公司,佔12%。   報告中指出,2018年企業研發投資總額較2017年增加8.9%,主要是中國在全球研發資金投入比例不斷增加。另外,研發投資高度集中於大型企業;在這2500家企業中,前10大、前50大企業分別佔研發總額的15%和40%。前50大企業中,最多者為美國企業22家和歐盟企業17家。再從研發投資領域觀察,前三大領域分別為資通訊產業(38.7%)、健康(20.7%)和汽車產業(17.2%),佔總量的76.6%。但每一個國家重視的領域不盡相同,例如歐盟投資20%在資通訊、21.6%在健康、31%汽車,而美國的資通訊研發投資佔了52.8%、26.7%在健康,僅有7.6%在汽車。   再從個別企業研發投資排名來看,前四大企業分別為Alphabet、Samsung、Microsoft和Volkswagen。另外,報告統計在過去的15年中,有8家企業在全球研發投資金額排名中上升了70名以上,分別為:Alphabet、華為、蘋果、Facebook、阿里巴巴、Celgene、Gilead Sciences和德國馬牌;也代表這15年間資通訊、生技與汽車產業發展的重要性。

基改作物MON810,德法命運大不同

  德國今年1月底通過新修法,使國際知名生技公司孟山都主要用做於飼料的基改抗蟲玉米MON810得以在德國更加順利種植。   原來德國法律規定基改作物與其相同種類傳統非基改作物間的種植距離為150公尺,與有機作物間的距離則為300公尺;但這項距離的規定對於農田面積多數不大的德國西部來說始終是一個問題,新法為此提供了一項新的出路,亦即基改作物種植者可與其相鄰傳統作物種植者簽訂契約來排除前述種植距離的限制,此項契約雖可能使傳統作物必須標示成為基改作物,但預估仍不會減低傳統作物種植者簽訂契約的意願。   專家評論德國這項新的立法仍然為德不卒,由於新立法並未將德國公開註冊制度中基改作物需揭露詳細的種植地點改為只需揭露種植地區,使得反基改分子仍將得以順利找到基改作物並加以破壞。另外,此次亦未修正的鄰田污染賠償責任使專家擔憂基改研究仍將限於校園內。   MON810在另一端的法國則顯得命運多舛,自去年秋天起,法國引用歐盟法的防衛條款(Articles 23 of the EU Deliberate Release Directive)來暫時禁種此一抗蟲玉米,於今年1月初,法國政府為此項問題所組成的委員會向環境部長提交調查結果,委員會主席並對外表示嚴重質疑MON810的安全性,並已取得大量MON810對動、植物負面影響的科學證據,使法國政府於1月中宣佈延續去年的禁種令。但專家質疑委員會主席對於調查報告之陳述失之客觀,由於調查報告中關於MON810商業種植對於環境影響的問題仍懸而未定,事實上並未存有委員會主席所謂的「嚴重質疑」。

TOP