合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/03/04)
引註此篇文章
你可能還會想看
歐盟環保新指令 科技業2,000億產值受衝擊

  歐盟將於今年8月實施兩大環保新指令,廠商生產的電機電子產品,包括材料、元件、製程等,都必須符合可回收55%至75%的規定,才准輸往歐盟,預估將影響國內科技業者輸出產值達新台幣2,000億元。   台灣區電機電子公會調查,中大型電子業廠商大都準備完成,中小型業者則未必。前年我國電子產品輸出金額達1兆元,屬於中小型零件廠製造的產值超過三分之一,金額達3,500億至4,000億元。經濟部委託工研院調查,國內可能面臨重大衝擊,預估有44項產品受管制,占歐盟管制81項產品的一半以上。業者的回收成本將增加3%至5%,調整產品材質及零件成本也提高5%至10%。   歐盟實施的環保指令分別是:廢電機電子指令(WEEE)、危害物質限用指令(RoHS)。前者是針對10大廢電機電子品,建立回收體系,並達成法定一定的回收率55%至75%,要求至2006年12月,每年每人回收4公斤。後者是國際企業必須自我要求8月完成停止使用含有重金屬鉛、汞等六種化學物質的電子產品,如IC封裝、電腦塑膠零件等。2006年7月將全面禁止輸入。

微軟與Linspire將展開技術合作

  微軟(Microsoft)宣佈又與Linux銷售商簽署,本次合作對象為Linspire公司,而該公司先前曾受到微軟的商標侵權指控。   這兩家公司曾於2004年達成合解,Linspire答應停止使用Lindows一名稱,而微軟為此支付了2千萬美元。Linspire還獲准使用Windows Media的程式碼,並解決了微軟的商標侵權指控問題。   根據達成之協議,兩方將在包括即時通訊(Instant Messaging)和網路搜尋(Web Search)在內的多個領域展開密切合作。對於購買Linspire付費版的用戶將得到相同的法律保障,以規避任何微軟可能對其採取針對Linux桌面軟體的法律行動。但Linspire未計畫在其免費的Freespire產品中提供微軟的技術,以及任何專利保障。   先前微軟曾表示,在Linux系統上的保護行動已成為其最近一系列“交互授權”合約的一部分,如其與LG、三星(Samsung)和Fuji Xerox簽署的一些專利權交易協定。微軟智權總監David Kaefer表示:「這些協議表明,微軟和眾多Linux供應商正為雙方作業系統間能架起一座橋樑而努力不懈」。這些公司並未在協議裏提及商業利益問題,但Kaefer表示:「很顯然,雙方同時都希望在此協商中獲利」。   協議中,Linspire將把微軟的Live Search作為其Linspire產品的預設搜尋引擎,並將獲准繼續使用包括Windows Media 10程式碼在內的Windows Media技術。   微軟還將准許Linspire在其即時通訊工具中使用其部分字體和IP語音技術,而Linspire也將加入Office 2007的XML檔案格式及OpenDocument格式轉換的研發團隊。

美國白宮發佈「AI應用監管指南」十項原則

  美國白宮科技政策辦公室(Science and Technology Policy, OSTP)在2020年1月6日公布了「人工智慧應用監管指南(Guidance for Regulation of Artificial Intelligence Applications)」,提出人工智慧(AI)監管的十項原則,此份指南以聯邦機構備忘錄(Memorandum for the Heads of Executive Departments and Agencies)的形式呈現,要求政府機關未來在起草AI監管相關法案時,必須遵守這些原則。此舉是根據美國總統川普在去(2019)年所簽署的行政命令「美國AI倡議」(American AI Initiative)所啟動的AI國家戰略之一,旨在防止過度監管,以免扼殺AI創新發展,並且提倡「可信賴AI」。   這十項原則分別為:公眾對AI的信任;公眾參與;科學誠信與資訊品質;風險評估與管理;效益與成本分析;靈活性;公平與非歧視;揭露與透明;安全保障;跨部門協調。旨在實現三個目標: 一、增加公眾參與:政府機關在AI規範制定過程中,應提供公眾參與之機會。 二、限制監管範圍:任何AI監管法規實施前,應進行成本效益分析,且機關間應溝通合作,建立靈活的監管框架,避免重複規範導致限制監管範圍擴大。 三、推廣可信賴的AI:應考慮公平性、非歧視性、透明性、安全性之要求,促進可信賴的AI。   這份指南在發佈後有60天公開評論期,之後將正式公布實施。白宮表示,這是全球第一份AI監管指南,以確保自由、人權、民主等價值。

美國專利商標局宣布快軌上訴試驗計畫

  美國專利商標局(The United States Patent and Trademark Office, USPTO)於今年7月1日發布新聞稿,即專利審判及上訴委員會(Patent Trial and Appeal Board, PTAB)開始加速處理單方上訴的計畫。該計畫名為「快軌上訴試驗計畫(Fast-Track Appeals Pilot Program)」並於今年7月2日正式啟動。   根據該計畫,專利審判及上訴委員會上訴裁決的目標時間預計為該上訴被賦予快軌(即批准加速審查)之日起六個月內,此與美國專利商標局之期望相符。蓋目前單方面上訴的裁決時間平均約14個月,因此,對於申請該計畫的人來說,該計畫平均應將上訴程序縮短約8個月。惟申請該計畫所需費用為400美元,且被批准的申請案會被限制在每季125件,會計年度最多500件,預計施行一年。   美國商務部負責智慧財產權事務副部長兼USPTO局長Andrei Iancu表示:「這是USPTO史上首次,申請人將能夠加快專利審查和單方上訴的速度,從而能較典型申請案約一半的時間內,就其最重要的發明做出決定。」。PTAB首席法官Scott Boalick亦表示:「近年來,我們取得了長足的進步,將上訴待決時間從2015年的平均30個月減少到目前的平均14個月。很高興PTAB現在能夠為申請人提供更快的途徑,從而使發明人和企業能夠更快地將其專利發明商業化。」   值得一提的是,我國智慧財產局亦有發明專利加速審查(Accelerated Examination Program, AEP)及商標加速審查機制。而AEP更早於民國98年1月1日起試辦實施,依據申請事由之不同,智財局將在申請人齊備相關文件後,於6個月內或9個月內發出審查結果通知。

TOP