合成資料(synthetic data)

  「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。

  在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。

  英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。

  技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。

本文為「經濟部產業技術司科技專案成果」

相關連結
相關附件
你可能會想參加
※ 合成資料(synthetic data), 資訊工業策進會科技法律研究所, https://stli.iii.org.tw/article-detail.aspx?d=8532&no=67&tp=5 (最後瀏覽日:2024/07/16)
引註此篇文章
你可能還會想看
智慧聯網趨勢下的城鎮再進化-日本 ICT 社區總體營造

美國國家標準技術局公布聯邦各部會技術研發成果轉化計畫

  美國國家標準技術局(the National Institute of Standards and Technology,NIST) 建立網路專頁,提出聯邦各部會所研發技術的移轉計畫報告,揭示各部會具體執行白宮在去(2011)年10月28日所發布的總統備忘錄(Presidential Memorandum),要求各聯邦實驗室進行技術研發並提高移轉給私部門之比例,以使政府投資之研發成果可以供大眾市場所用,以進一步加速經濟成長與提昇美國產業競爭力。   觀察白宮所發布的政策文件指出,聯邦政府將創新技術研發,視為刺激經濟的一個重要工具,而有效的技術移轉又是成功的技術研發的重要驅動力,故歐巴馬政府啟動美國計畫(Startup America Initiative)將政府研發技術的移轉作為重要支柱之一,並預計於5年內達成具體成績。   於NIST網頁公布之13個聯邦部會所提出之執行計畫,包括各機關自訂目標與評量標準,以評估刺激技術移轉計畫之成效。而作為美國產業技術研發與標準制訂之主要推動機構,NIST的技術移轉計畫將調整技術移轉的定義與內涵,俾更為精確地反應和評估廣泛的技術研發活動。未來NIST將擴張各項衡量指標,如標準參考物質和數據(Standard Reference Materials and Data)、專利授權、共同研究等的追蹤範圍,此外包括軟體下載、研究人員、新創公司等亦納入新的衡量指標範圍之內。同時在完善技術移轉活動追蹤機制方面,NIST將建立內部人員參與私部門統一標準制訂委員會之資料庫。   包括NIST在內以及美國商業部與其他各主要進行產業技術研發的聯邦部會之技術移轉計畫,揭示了技術移轉在美國技術研發活動週期中的重要性,具體執行、評估之方式,可自NIST專頁進行下載、分析並作為政策規劃之參考。

日本 – 能否移除個人資料登載 各地法院見解有所不同

  為促進政府效能、提高服務品質、協助身份確認、減輕居民負擔,以期邁向先進資訊社會,日本政府近年致力推動「居民基本資料」(「住民基本台帳」;包括姓名、住址、性別、出生年月日及居民編號等)網路化,作為電子化政府基礎架構之一環。惟資料之蒐集範圍為何、傳輸網路安全與否、是否會遭政府濫用、有無可能遭相關人員洩漏於外移作他用等問題始終受到質疑,目前不僅計有福島?矢祭町、東京都杉並?、?立市三處地方政府暫緩推行,民間團體更分別在日本全國各地 13 個地方法院提起民事訴訟,主張「居民基本資料網路」(「住民基本台帳 ?????? 」;「住基 ??? 」)侵犯個人之隱私權及人格權,除請求移除已登錄之個人資料外,並要求中央政府、地方政府及掌理該網路的財團法人地方自治資訊中心(財?法人地方自治情報 ???? ; Local Authorities Systems Development Center, LASDEC )應負擔合計每人 22 萬日圓的損害賠償。   對此,金?地方法院首先作成判決( 2005 年 5 月 30 日),雖駁回原告方面的損害賠償請求,不過移除已登錄資料部分則判命原告勝訴。該院認為,「隱私」及「便利」之間究竟何者優先,應本諸居民個人意思自行決定,而非被告方面得以促進行政效率為由逕為取捨。然時隔一日( 2005 年 5 月 31 日),名古屋地方法院卻作出見解完全相反的判決,認為「居民基本資料網路」已採行必要之資料保護措施,個人隱私不至於輕易遭受侵害,原告方面的兩項請求均應予以駁回。    個人基本資料應予保護,當屬不爭之論,但究竟該如何保護、保護又該到何種程度,各方立場不同、偏重各異,看法常有差距;日本「居民基本資料網路」事件之原被告間、甚至不同地方法院間的見解差異,即為適例。目前正值我國研議修正個人資料保護法之際,前開事件今後如何發展,或有吾人持續觀察並深入思索之餘地。

歐洲議會對再生能源利用達成協議

  為重新對各類再生能源與用於大眾運輸工具之生質燃料使用量確立具約束力之目標,歐洲議會下之工業及能源委員會於2008(今)年9月11日決定批准一項跨黨派協議案。   今年年初,歐盟執委會曾遞交一項促進歐盟境內對再生能源使用量之建議案,亦即設定至2020年時,歐盟境內再生能源使用量應達總能源使用量之20%;同時,該建議案也包含了一項關於生質燃料使用量亦應達到10%之目標。不過,在考慮關於不斷上揚之糧食價格、生物多樣性之消失及廣受質疑之CO2減量價值等因素後,也導致許多團體要求降低執委會最初設定之目標。而經過數月詳細地分析2千多份修正案報告後,執委會再生能源建議案報告起草人Turmes,在今年9月中旬宣佈,該項建議案目前現已獲得跨黨派支持。   於Turmes報告中,其建議應對生質燃料之使用訂立階段性目標:即(1)至2015年時應達到5%;及(2)至2020年時則應增加至10%;同時,其還特定,就未來達成生質燃油使用比例目標而言,至少有40%應要透過利用「非以糧食或飼料競爭性」為原料之第二代生質燃料,或使用綠色電能與氫能源環保車而來;至於其他種類生質燃油之利用,則應須在符合嚴格之環境永續性標準下,方能一併被納入計算。而為支持年初所提之建議案,德國、英國及波蘭等國也在6月份提出一項新的彈性機制:即在會員國間可透過合作型計畫來達成各自之目標。此外,對至2020年未達目標之會員國,歐洲議會成員將另批准一套「財務性懲罰原則」來處理之;同時,就懲罰所取得之款項,也將成立一項獎勵專款來激勵超過目標之國家。   不過,綠色組織團體卻認為利用生質燃料因具後述缺點如:(1)成本昂貴、(2)對氣候保護方面並無任何助益、及(3)利用不符永續性標準之生質燃油也僅是增加生物多樣性流失與糧食價格而已,故而對於議會批准該協議案感到失望。

TOP