合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/05/20)
引註此篇文章
你可能還會想看
奈米科技之前瞻性規劃-以美國推行綠色奈米為中心

歐盟執委會授權各國決定GMO的提案遭抨擊  10月環境部長會議將繼續協商

  歐盟執委會(European Commission)於今(2010)年7月授權歐盟各會員國自行決定禁止或准許基因改造(GM)農作物的提案,過去幾個月來即已不斷遭受外界質疑,在近日(9月27日)召開的農業部長會議上又受到主要歐盟會員國的強烈抨擊;歐盟消費者健康及安全政策部門代表John Dalli表示,這個問題將會在10月14日召開的環境部長會議繼續進行協商。   事實上,歐盟執委會的提案同時引來了GMO支持者與GMO反對者的譴責,他們認為這項議案會給農民與農產業者製造法律上的不確定空間,徒增困擾;此外,綠色和平組織歐盟農業政策執行長Marco Contiero也表示,各會員國都不應該接受執委會的這項提案,反而必須對執委會施加壓力,以確保農作物的安全並預防環境污染。農業會議上,許多會員國農業部長也擔心執委會的提案不但會分裂農產品國際市場,並也可能與WTO規則相衝突。   由於預期執委會7月份的提案可能將被撤回或大幅修改,參與農業會議的各國部長也都同意在這過渡時期成立專責的工作小組,以資因應該提案所引致的眾多批評。就現階段看起來,GMO爭議還會在歐盟繼續上演,後續的相關討論值得繼續觀察。

IBM提出「人工智慧日常倫理」手冊作為研發人員指引

  隨著人工智慧快速發,各界開始意識到人工智慧系統應用、發展過程所涉及的倫理議題,應該建構出相應的規範。IBM於2018年9月02日提出了「人工智慧日常倫理」(Everyday Ethics for Artificial Intelligence)手冊,其以明確、具體的指引做為系統設計師以及開發人員間之共同範本。作為可明確操作的規範,該手冊提供了問責制度、價值協同、可理解性等關注點,以促進社會對人工智慧的信任。 一、問責制度(Accountability)   由於人工智慧的決策將作為人們判斷的重要依據,在看似客觀的演算系統中,編寫演算法、定義失敗或成功的程式設計人員,將影響到人工智慧的演算結果。因此,系統的設計和開發團隊,應詳細記錄系統之設計與決策流程,確保設計、開發階段的責任歸屬,以及程序的可檢驗性。 二、價值協同(Value Alignment)   人工智慧在協助人們做出判斷時,應充分考量到事件的背景因素,其中包括經驗、記憶、文化規範等廣泛知識的借鑑。因此系統設計和開發人員,應協同應用領域之價值體系與經驗,並確保演算時對於跨領域的文化規範與價值觀之敏感性。同時,設計師和開發人員應使人工智慧系統得以「了解並認知」用戶的價值觀,使演算系統與使用者之行為準則相符。 三、可理解性(Explainability)   人工智慧系統的設計,應盡可能地讓人們理解,甚至檢測、審視它決策的過程。隨著人工智慧應用範圍的擴大,其演算決策的過程必須以人們得以理解的方式解釋。此係讓用戶與人工智慧系統交互了解,並針對人工智慧結論或建議,進而有所反饋的重要關鍵;並使用戶面對高度敏感決策時,得以據之檢視系統之背景數據、演算邏輯、推理及建議等。   該手冊提醒,倫理考量應在人工智慧設計之初嵌入,以最小化演算的歧視,並使決策過程透明,使用戶始終能意識到他們正在與人工智慧進行互動。而作為人工智慧系統設計人員和開發團隊,應視為影響數百萬人甚至社會生態的核心角色,應負有義務設計以人為本,並與社會價值觀和道德觀一致的智慧系統。

音樂出版業者控告LimeWire侵害著作權

  國家音樂出版組織(National Music Publishers’ Association,簡稱NMPA)中8家音樂出版業者在2010年6月16日對LimeWire提起著作權侵權訴訟。8家出版業者包含EMI Music Publishing, Sony/ATV Music Publishing, Universal Music Publishing Group(環球), Warner/Chappell Music, Inc.(華納), Bug Music, MPL Music Publishing, Peermusic and The Richmond Organization.等唱片公司,被告LimeWire是知名的檔案共享線上服務網站。原告指出被告大量的侵害原告的音樂著作,因此要求賠償。     NMPA表示本案和上個月13家音樂公司和美國唱片業協會(Recording Industry Association of American,簡稱RIAA)對LimeWire的著作權訴訟是相關聯的案件。美國地方法院法官於上個月就RIAA和LimeWire一案作出判決,法官認定LimeWire公司及負責人侵害著作權,且構成不公平競爭。13家公司要求凍結LimeWire的資產並且要負擔近十億美金賠償,RIAA要求LimeWire立即關掉網站,但法官於6/8說明LimeWire至少可持續營業兩週。     NMPA的負責人及執行長Israelite表示,LimeWire提供的網路平台有助於網路著作權侵害的產生。每首音樂產出的背後都有一群龐大的網路,包含出版者、作曲家、表演者、錄音者,唱片公司,並非無中生有的,LimeWire檔案分享網站利用提供販賣音樂平台,使他人可以接觸音樂,但拒絕支付合理的音樂授權金。     LimeWire釋出善意歡迎NMPA進行協商談判,並表示將有許多與出版業者、作曲家、表演者、唱片公司的會談,就如同LimeWire新的音樂服務機制與商

TOP