「合成資料」(synthetic data)的出現,是為了保護原始資料所可能帶有的隱私資料或機敏資料,或是因法規或現實之限制而無法取得或利用研究所需資料的情況下,透過統計學方法、深度學習、或自然語言處理等方式,讓電腦以「模擬」方式生成研究所需之「合成資料」並進行後續研究跟利用,透過這個方法,資料科學家可以在無侵犯隱私的疑慮下,使合成資料所訓練出來的分類模型(classifiers)不會比原始資料所訓練出來的分類模型差。
在合成資料的生成技術當中,最熱門的研究為運用「生成對抗網路」(Generative Adversarial Network, GAN)形成合成資料(亦有其他生成合成資料之方法),生成對抗網路透過兩組類神經網路「生成網路」(generator)與辨識網路(discriminator)對於不同真偽目標值之反覆交錯訓練之結果,使其中一組類神經網路可生成與原始資料極度近似但又不完全一樣之資料,也就是具高度複雜性與擬真性而可供研究運用之「合成資料」。
英國國防科技實驗室(Defense Science and Technology Laboratory, DSTL)於2020年8月12日發布「合成資料」技術報告,此技術報告為DSTL委託英國航太系統公司(BAE Systems)的應用智慧實驗室(Applied Intelligence Labs, AI Labs)執行「後勤科技調查」(Logistics Technology Investigations, LTI)計畫下「資料科學與分析」主題的工作項目之一,探討在隱私考量下(privacy-preserving)「合成資料」當今技術發展情形,並提供評估技術之標準與方法。
技術報告中指出,資料的種類多元且面向廣泛,包含數字、分類資訊、文字與地理空間資訊等,針對不同資料種類所適用之生成技術均有所不同,也因此對於以監督式學習、非監督式學習或是統計學方法生成之「合成資料」需要採取不同的質化或量化方式進行技術評估;報告指出,目前尚未有一種可通用不同種類資料的合成資料生成技術或技術評估方法,建議應配合研究資料種類選取合適的生成技術與評估方法。
本文為「經濟部產業技術司科技專案成果」
伊格奈科技公司(Ignite Technologies Inc.)推出了一款數位內容傳播輔助工具,可幫助企業傳輸大量的數位內容檔案。此項名為伊格奈溝通者(Ignite Communicator)的服務,能協助企業傳輸各種數位內容的檔案,包括視訊、圖形及軟體。此項工具最大的特色,在於能跨越各種不同的作業平台,進行檔案傳輸。 伊格奈此項新服務,能協助企業傳遞資料給遠端行動的使用者,亦可聯結企業夥伴或客戶各種不同層級的網路系統。對於內容豐富而檔案龐大的數位內容傳播而言,此類跨平台的傳播技術與服務,對於 B2B 與 B2C 的數位內容應用,都是一大推動助力。
科技大廠被控剝削開放原始碼社群歐盟執委會( EC )一名資深官員 30 日大聲抨擊幾家美國的大型 IT 企業,指控他們對開放原始碼社群的發展產生過多影響。 EC 的資訊社會與媒體理事會軟體科技首長 Jesus Villasante 表示,如 IBM 、惠普( HP )和昇陽( Sun Microsystems )這些大公司,只是把開放原始碼社群當作承包商,而非鼓勵他們開發獨立的商業產品。 Villasante 在阿姆斯特丹舉行的荷蘭開放軟體大會( Holland Open Software Conference )中指出:「 IBM 會問顧客:你要專有或開放軟體?(如果他們選擇開放原始碼)然後他們會說:好,你要的是 IBM 的開放原始碼軟體。開放原始碼都將變成 IBM 、惠普或昇陽的財產。」 Villasante 說:「這些公司以承包商的模式,利用(開放原始碼)社群的潛能 – 當今的開放原始碼社群,等於是美國跨國企業的承包商。」他呼籲開放原始碼社群應發展更大的獨立性。 他表示:「開放原始碼社群需要看重自己,並瞭解他們對本身和社會都已作出貢獻。從他們瞭解自己是推動社會進化的一部分,並試圖發揮影響的那一刻起,我們才能朝正確的方向前進。」 Villasante 的看法令其他參與討論的成員頗為意外,包括 Sun One Consulting 的首席設計師 James Baty 。業界專家曾表示, IBM 等大公司對開放原始碼軟體的發展,作出相當大的貢獻,他們幫助說服企業與 IT 專業人員相信開放軟體與專有軟體一樣可靠。 Baty 並未直接回應 Villasante 的評論,但表示包括他的雇主在內的大型企業,都有責任奉獻給開放原始碼社群。昇陽捐助若干開放原始碼計劃,包括生產力應用軟體 OpenOffice.org 。 Baty 說:「有些公司僭取了開放原始碼社群的成果,其他公司則抱持他們必須奉獻的態度。(開放原始碼)應被視為一個機會,不是供人奪取和濫用的東西。」 Villasante 也利用稍早的演說,表達對歐洲軟體業的擔憂。他說:「我的看法是,歐洲目前根本沒有軟體產業 – 當今唯一的軟體產業只存在美國,未來或許還會出現在中國或印度。我們應該決定將來是否要建立歐洲的軟體產業。」 Villasante 認為開放原始碼是歐洲軟體產業發產的重要部分,但這種過程卻受到智慧財產遊說團體與傳統軟體業的壓力,及開放原始碼社群本身的分裂所壓抑。他說:「開放原始碼處於徹底的混亂 – 許多人作很多不同的東西。造成現在完全的混亂。」 一位聽眾指出, EC 也要為推動可能損害開放原始碼的軟體專利規章負責。 Villasante 回答,並非所有 EC 的成員都自動支持該規章。他說:「首先,我不負責軟體專利 – 軟體專利規章是由內部(市場)局長管理。資訊協會( Villasante 工作的單位)局長的意見,不一定與內部局長相同。」(陳智文)
MPAA 藉由 BT 網站伺服器記錄對 P2P(BT) 軟體用戶提起訴訟追蹤、定位、起訴,所有 P2P(BT) 軟體使用者的噩夢再次上演。全美製片業團體「美國電影協會」 ( Motion Picture Association of America ; MPAA ) 在 8 月 25 日對美國境內 286 位居民提起訴訟,成為首宗利用 P2P(BT) 網站伺服器記錄 ( server logs ) 追蹤 ( track down ) 盜版電影下載者的案例。 今年 2 月,著名 BT 網站 LokiTorrent 與 MPAA 的大戰告一段落。德州法院下令 LokiTorrent 關閉網站外,並命令 LokiTorrent 將伺服器記錄轉交給 MPAA 的調查員 ( investigator ) 。 MPAA 的發言人聲稱本月 25 日的訴訟與此事件無關,但所有人都明白 MPAA 正是憑此線索,最終找到了 P2P(BT) 用戶的行蹤。好萊塢希望藉此行動阻嚇免費下載電影的行?, MPAA 資深副總裁 John Malcom 聲稱「下載盜版電影的人要當心了,當你為著作權侵害行為時,網路上並不會有朋友站出來替你撐腰。」 儘管 P2P(BT) 軟體背負著助長盜版的惡名,但 P2P(BT) 的合法用途也在逐漸增加,例如使用 P2P(BT) 技術分發 ( distribute ) 開放原始碼軟體 ( open-source software ) ,網路瀏覽器軟體公司 Opera 即在新版的程式中內建了此種技術。 BT 技術的發明人 Bram Cohen 曾警告用戶,使用 P2P(BT) 軟體下載盜版是個蠢主意,因?軟體在設計時並未刻意隱藏用戶的識別資訊,這也是為何 MPAA 此次能憑藉著伺服器記錄對用戶提起訴訟的主要原因。