合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=64&tp=1 (最後瀏覽日:2026/04/03)
引註此篇文章
你可能還會想看
梵諦岡與IBM、微軟聯合呼籲對臉部辨識等侵入性技術進行監管

  2020年2月28日梵諦岡教宗與兩大科技巨頭IBM及微軟聯合簽署「羅馬呼籲AI倫理道德」文件,支持制定人工智慧(AI)發展倫理與道德規範,並特別呼籲應針對臉部辨識等侵入性技術進行監管。在聯合文件上特別提及臉部識別技術潛在之濫用風險,例如警察會使用臉部辨識系統調查犯罪行為、《財富》500強公司使用AI審查求職者,這兩個例子均具有潛在且高度之風險,使用不正確或是具有偏見之AI判斷均可能會造成傷害。誠如方濟各在致辭中說:「人工智慧記錄個人資料,並使用於商業或政治目的,而且通常是在個人不知情之情況下,這種不對稱,將使少數人了解我們的一切,但我們卻對他們一無所知,這將使批判性思維和對自由的自覺變得遲鈍,不平等現象急遽擴大,知識和財富在少數人手中累積,將對民主社會構成重大風險。」   此次會議希望在國家與國際層面上共同努力促進AI道德規範,並根據以下原則來發展和使用人工智慧。第一,良好的創新:人工智慧系統必須是可理解得,並且在包容性方面必須考慮到所有人的需求,以便每個人都能受益。第二,責任:設計和實施人工智慧者必須承擔責任和保持透明度。第三,公正性:避免根據偏見進行創造或採取行動,從而維護人類平等和尊嚴。第四,可靠性:人工智慧系統必須能夠可靠的運行。第五,安全和隱私:人工智慧系統必須安全運行並尊重用戶的隱私。   目前尚不清楚其他技術公司是否會簽署該文件,以及簽署人將如何實施,但教宗與兩大科技巨頭史無前例的合作,為人工智慧未來發展方向提供遠見卓識,能更加深入的去思考AI的道德意涵以及它將如何與人類更好的合作、互動,互利共生,相輔相成。

德國聯邦資訊技術,電信和新媒體協會針對AI及自動決策技術利用提出建議指南

  德國聯邦資訊技術,電信和新媒體協會於2018年2月6日在更安全的網路研討會中針對利用人工智慧及自動決策技術利用提出建議指南(Empfehlungen für den verantwortlichen Einsatz von KI und automatisierten Entscheidungen),旨在提升企業數位化與社會責任,並提升消費者權益保護。 本份指南提出六項建議: 促進企業內部及外部訂定相關準則 例如規定公司在利用演算法和AI時,必須將影響評估列入開發流程,並列為公司應遵守的道德倫理守則,以確保開發的產品或服務符合公平及道德。 提升透明度 使用者如有興趣了解演算法及其含義,企業應協助調查並了解使用者想獲知的訊息,並透過相關訊息管道提升產品及服務透明度。因此,企業應努力使演算法及其操作和含義能夠被使用者理解。此亦涉及即將實施的歐盟一般資料保護規則中的透明度義務。在機器學習或深度學習情況下,可能會增加理解性和可追溯性難度,但有助於分析流程並使其更接近人類理解的方法在科學和商業實踐中,應特別關注並進一步討論。另外,透過教育及使用說明協助及控制功能,教導消費者係建立雙方信任的重要手段。企業應在第一線中說明產品或服務中使用的手段(演算法,機器學習,AI)。除了解釋使用那些技術來改進產品和服務外,應一併解釋如何從技術控制過程中獲得相關知識以及提供那些後援支持。另外,例如透過幫助頁面,儀表板或部落格,解釋發生什麼以及如何做出某些影響深遠的自動化決策,使用戶更了解有關使用自動決策相關訊息。因此建議企業採取強制有效以建立信任的措施,使用戶理解是否及如何使用相關演算法,此可能包括使用自動化決策,使用特定資料組和使用技術的目的,亦即使用戶對演算法,機器學習或AI支持的決策有基本的了解。 為全體利益使用相關技術 人工智慧等新技術之重要性不應被低估,目前在生活和工業等眾多領域皆有廣泛應用。對於個人和集體而言,將可帶來巨大的利益,因此應該充分利用。例如,人工智慧可降低語言障礙,幫助行動不便的人可更加獨立自主生活,改善醫療診斷,提升能源供應效率,甚至是交通規劃和搜索停車位,都只是人工智慧偉大且已被使用的案例。為促進技術發展,應公平地利用其優勢並預留商業應用模式的空間,同時充分解決涉及的具體風險。產業特定的解決方案十分重要,但應兼顧受影響者的利益,並與廣大公眾利益找出妥協平衡點,且應排除不適當的歧視。建議在使用決策支持技術時,應事先檢查相關後果並與其利益比較。例如,可以在資料保護影響評估的框架進行。作為道德準則的一部分,必須確保演算法盡可能量準確地預測結果。 開發安全的資料基礎 資料係人工智慧支援決策的基礎。與人為決策者相同,資料不完整或錯誤,將導致做出錯誤的決定。因此決策系統的可靠性仍取決資料的準確性。但資料質量和資料來源始終不能追溯到源頭,如果可能的話,只有匯總或非個人資料可用於分析或分類用戶群組。因此,確切細節不可被使用或揭露。因此建議企業應考慮要使用的資料、資料的類別和在使用AI系統前仔細檢查資料使用情況,特別是在自我學習系統中資料引入的標準,並根據錯誤來源進行檢查,且儘可能全面記錄,針對個人資料部分更應謹慎處理。 解決機器偏差問題 應重視並解決所謂機器偏差和演算法選擇和模型建立領域的相關問題。解釋演算法,機器學習或AI在基層資料選擇和資料庫時所產生決策偏見相當重要,在開發預期用途的演算法時必須納入考量,對員工應針對道德影響進行培訓,並使用代表性紀錄來創建可以識別和最小化偏差的方法。企業並應該提高員工的敏感度並培訓如何解決並減少機器偏見問題,並特別注意資料饋送,以及開發用於檢測模式的內、外部測試流程。 適合個別領域的具體措施和文件 在特別需要負責的決策過程,例如在車輛的自動控制或醫療診斷中,應設計成由責任主體保留最終的決策權力,直到AI的控制品質已達到或高於所有參與者水平。對類人工智慧的信任,並非透過對方法的無條件追踪來實現,而是經過仔細測試,學習和記錄來實現

歐盟執委會發佈產品能源標章政策研究報告

  歐盟實施能源標示(Energy Label)制度已屆滿20週年,目前能源標示制度下,主要針對家電產品(house appliances)之能源標示進行管制,共分為七個層級,即A、B、C、D四等級外,另於能源效率表現較好之A等級之上,再行劃分A+、A++、A+++三等級。   歐盟執委會於2012年10月下旬公告能源標示市場調查研究,期在目前能源標示制度(Directive 2010/30/EU)下,探究未來二種可導入的模式: 模式一,導入碳足跡(carbon footprint)、水足跡(water footprint)、資源消耗(resource depletion)、水毒性(water eco-toxicity)等四種環境衡量指標;模式二,僅導入碳足跡(carbon footprint)衡量指標。本研究旨在建立是否上述二種模式能鼓勵消費者採購更佳環境友善的產品,其次,測試消費者對於不同節能績效產品之採購意願。   本研究報告分為三大面向,第一大面向,檢視當前能源相關標示制度與資料,分析產品的碳足跡和環保標示。第二大面向,擇定三個市場,進行消費者質化研究。第三大面向,擇定九個市場並六千名消費者,就消費者之行為調查。   觀歐洲議會已於2012年底就若干產品之能源標示進行審議,與歐盟經貿關係亦屬密切之台灣當持續關注此項議題。

德國聯邦內政部對歐盟部長會議「資料保護基本規則」(Datenschutz-Grundverordnung)發表意見書,並提出修法建議

  德國聯邦內政部資料保護與資訊自由委員會於2015年8月15日針對歐盟部長會議於6月15日所確立對歐盟資料保護基本規則(Datenschutz-Grundverordnung)的基本立場,若依該立場則(1)資料處理目的之變更理由將變得更寬泛(2)對資訊保有機構所提出的申請程序以有償為原則(3)蒐集個人資料應遵循之規範過於簡略等,該委員會提出批評與建議。   該委員會會議認為有必要改進歐盟「資料保護基本規則」,令其更周延,更呼籲對資料保護基本規則的修正,應循以下重點及原則進行: 1.資訊節約原則應該堅持   多年來在德國法已確立的資訊節約原則(Datensparsamkeit)和資訊避免原則(Datenvermeidung),應予維持。因此資料保護基本規則中,須清楚詳盡地規定節約原則和資訊避免原則。 2.目的明確性原則的要求不能退縮   目的明確性原則(der Grundsatz der Zweckbindung)之功能,係為資料處理之透明性和可預見性,該原則亦強化了當事人的資訊自主權,使其得以信賴個人資料之處理,僅限於所申請之目的內進行。   故若依理事會建議之規範,使資料處理目的之變更,得以更寬泛的理由進行,將背棄歐盟基本權利憲章中之目的明確性原則。 3.即令個人同意書亦不得拋棄資訊主權   資訊自決權,意謂原則上個人可以用同意的方式,決定個人資訊的使用和拋棄。但即使有清楚明確的意思表示,該同意亦僅係保障資訊主權的重要因素之一。另就同意書而言,若如歐盟部長理事會所建議者,只需清楚明確即可,則這種方式於保護上是不夠充分的。 4.個人資料建檔必須有效地限制   該會議重申,嚴格規範對個人資料的蒐集有其必要性。為個人檔案之整合與充分使用設置嚴格的界限,現有規定太過簡略而遭到批評。 5.有效的資訊保護需要歐盟層級的企業與官署的資料保護專員   對於資訊保護監督的有效性,在德國已確立之官方與私人企業的資訊保護專員制度係重要之一環。應致力於歐盟層級公/私機構資訊保護專員制度在整個歐洲的推動。 6. 資訊傳輸第三國官署和法院需要更嚴格的監督   近期的隱私醜聞之後,目前亟需對歐洲公民個人資料給予更妥善的保護,以對抗來自第三國的機構。此意見書贊同歐盟議會的建議,即以第三國法院的判決和行政機關的決議,要求對個人資訊的披露,在歐盟之中僅能基於國際公約中機關互助和法律協助之規定,原則上予以承認與執行。

TOP