美國專利商標局(下稱USPTO)於6月2日和Google簽訂一協議,為期兩年Google將免費協助USPTO提供超過10TB(terabytes)大量的專利及商標相關資訊,提供使用者一次下載大量資料。其下載網站為http://www.google.com/googlebooks/uspto.html,該網站載明,所有的原始資料都來自於USPTO,Google未修改任何資料,只將檔案轉為zip壓縮檔。 早期專利及商標的資料是由使用者付費後方可由政府的DVD取得,所以公司往往花費龐大的費用在於取得所需要的資料。 USPTO表示,IP群體渴望USPTO可提供大批機器可閱讀的格式,然而USPTO未具備相關的技術能力。目前此協議是過渡的解決方案,USPTO正發展策略,希望未來能讓合作承包商獲得大量專利商標相關資料,並提供給大眾使用。 Google工程經理Jon Orwant表示,Google非常高興能與USPTO合作,以促進專利及商標資料更具存取性(accessible)及有用性,更重要的為,使公開的資料更容易蒐集與分析。 為可經由Google下載相關專利及商標資料,包括已獲證圖像(grant images),已獲證全文(grant full text),已獲證目錄資料(grant bibliographic data),已公開申請案(published applications),轉讓(assignment),維護費用事項(maintenance fee events),USPTO Red Book及分類資料(classification information)等。USPTO表示,未來將與Google再合作提供額外的資料,包括專利及商標申請歷史檔案及其相關資料。
日本發布《資料品質管理指引》,強調歷程存證與溯源,建構可信任AI透明度2025年12月,日本人工智慧安全研究所(AI Safety Institute,下稱AISI)與日本獨立行政法人情報處理推進機構(Information-technology Promotion Agency Japan,下稱IPA)共同發布《資料品質管理指引》(Data Quality Management Guidebook)。此指引旨於協助組織落實資料品質管理,以最大化資料與AI的價值。指引指出AI加劇了「垃圾進,垃圾出(Garbage in, Garbage out)」的難題,資料品質將直接影響AI的產出。因此,為確保AI服務的準確性、可靠性與安全性,《資料品質管理指引》將AI所涉及的資料,以資料生命週期分為8個階段,並特別強調透過資料溯源,方能建立透明且可檢核的資料軌跡。 1.資料規劃階段:組織高層應界定資料蒐集與利用之目的,並具體說明組織之AI資料生命週期之各階段管理機制。 2.資料獲取階段:此步驟涉及生成、蒐集及從外部系統或實體取得資料,應優先從可靠的來源獲取AI模型的訓練資料,並明確記錄後設資料(Metadata)。後設資料指紀錄原始資料及資料歷程之相關資訊,包含資料的創建、轉檔(transformation)、傳輸及使用情況。因此,需要記錄資料的創建者、修改者或使用者,以及前述操作情況發生的時間點與操作方式。透過強化來源透明度,確保訓練資料進入AI系統時,即具備可驗證的信任基礎。 3.資料準備階段:重點在於AI標註(Labeling)品質管理,標註若不一致,將影響AI模型的準確性。此階段需執行資料清理,即刪除重複的資料、修正錯誤的資料內容,並持續補充後設資料。此外,可添加浮水印(Watermarking)以確保資料真實性與保護智慧財產權。 4.資料處理階段(Data Processing):建立即時監控及異常通報機制,以解決先前階段未發現的資料不一致、錯漏等資料品質問題。 5.AI系統建置與運作階段:導入RAG(檢索增強生成)技術,檢索更多具參考性的資料來源,以提升AI系統之可靠性,並應從AI的訓練資料中排除可能涉及個人資料或機密資訊外洩的內容。 6. AI產出之評估階段(Evaluation of Output):為確保產出內容準確,建議使用政府公開資料等具權威性資料來源(Authoritative Source of Truth, ASOT)作為評估資料集,搭配時間戳記用以查核參考資料的時效性(Currentness),避免AI採用過時的資料。 7.AI產出結果之交付階段(Deliver the Result):向使用者提供機器可讀的格式與後設資料,以便使用者透過後設資料檢查AI產出結果之來源依據,增進透明度與使用者信任。 8.停止使用階段(Decommissioning):當資料過時,應明確標示停止使用,若採取刪除,應留存刪除紀錄,確保留存完整的資料生命週期紀錄。 日本《資料品質管理指引》強調,完整的資料生命週期管理、強化溯源為AI安全與創新的基礎,有助組織確認內容準確性、決策歷程透明,方能最大化AI所帶來的價值。而我國企業可參考資策會科法所創意智財中心發布之《重要數位資料治理暨管理制度規範(EDGS)》,同樣強調從源頭開始保護資料,歷程存證與溯源為關鍵,有助於組織把控資料品質、放大AI價值。 本文為資策會科法所創智中心完成之著作,非經同意或授權,不得為轉載、公開播送、公開傳輸、改作或重製等利用行為。 本文同步刊登於TIPS網站(https://www.tips.org.tw)
立法責令ISP業者留存紀錄之呼聲日益高漲立法強制 ISP 業者記錄客戶使用狀況以供日後調查之用,此等呼聲近來日形高漲。部分行政部門官員業已表態支持此一作為;另有數位國會議員亦主張,應儘速推動聯邦層級之立法,以協助執法部門對付兒童色情( child pornography )問題;甚至在科羅拉多州,目前已有相關法案進入該州參議會接受審理。 立法強制業者留存資料或記錄的作法,固然對於揭發犯罪繩之以法甚有裨益,但由於可能會讓警方得以取得電郵往來、網頁瀏覽、聊天記錄等向來可能經過幾個月之後就會刪除的資料,以致隱私保障人士以及 ISP 業者普遍對此甚感憂慮。歸納而言,其理由主為以下三點:第一,何人始有權限近用相關資料,探查他人上網行為之紀錄,仍待釐清;第二,存留該等資料所需空間勢必可觀,費用究竟由誰支應,亦屬未定;最後,現行法制是否對於警方辦案確實造成障礙,同樣有待探討。 美國司法部( the U.S. Department of Justice )去年即已逐步開始推動相關立法,而歐洲議會( the European Parliament )去年 12 月審議相關條文增修,要求 ISP 業者以及電信業者就其經手傳輸之所有電子訊息以及通話,均須保存相關紀錄 6 個月至 2 年之譜,更是引發諸多關注及討論。美國眾議院( the U.S. House of Representatives )能源商務委員會( the Committee on Energy and Commerce )監控調查組( the Subcommittee on Oversight and Investigations )預計本月 27 日將召開另一次聽證會,持續就此議題詳加探討。
建立基因資料庫 台灣可行賽雷拉( Cel-era)公司創始人溫特克萊首度來台,他是四年前完成人類基因體解碼的靈魂人物,他建議可運用基因解碼技術,建立基因資料庫,解決台灣醫療資源浪費。 事實上,早在2004年2月行政院科技顧問組為追蹤研究國人常見疾病與基因之間的關係,宣布推動「台灣疾病與基因資料庫」建置計畫。希望透過該基因資料庫的建立,確實掌握國人致病基因,奠定基因治療基礎,除了有效節省醫療資源浪費,更可鎖定特有亞洲疾病為研發重心,作為生技產業發展的優勢利基。台灣人口數約有二仟多萬,且具有完整健全的全民健保及戶籍資料,再加上台灣生物科技產業技術的蓬勃發展,想要建立大型的基因資料庫技術性應相當可行。國外有冰島和英國等多國發展之經驗可參考。 由於涉及人權自主、個人隱私、安全保密、社會倫理、研究成果的利益分享、以及由誰來擔任執行單位等方面的爭議,加上目前國內法令規範不足,既有相關法令多為位階較低的指導性公告,確實有必要建置相關配套制度及法律,以協助該計劃落實執行與發展。