免费观看已满十八岁电视剧国语_人妻 色综合网站_欧美大尺寸suv视频_成人免费高清在线观看_久久久成人毛片无码_老头解开奶罩吸奶头高潮视频_sm调教室论坛入口_欧美夫妻交换久久丫1000_一级黄色大片在线免费观看了

首頁 > 資訊 > 行業(yè)

亞馬遜擬發(fā)布400萬字會話數(shù)據(jù)集 幫助進行自然語言處理研究

2019/04/02 14:40      騰訊科技 [No.H100]


  4月2日消息,據(jù)外媒報道,亞馬遜今天表示,將在2019年9月發(fā)布超過400萬字、針對自然語言處理研究的數(shù)據(jù)樣本。這個樣本名為“主題聊天數(shù)據(jù)集”(Topical Chat),其中包括眾包人類對話語料庫,并將其提供給參加年度Alexa Prize Socialbot大挑戰(zhàn)的團隊。

  亞馬遜稱,主題聊天數(shù)據(jù)集由21萬多個主題會話,超過410萬字,這使其成為世界上最大的公共會話和知識數(shù)據(jù)集之一。語料庫的每個會話和會話轉向都與提供給人群工作者的知識相關聯(lián),并且所涉及的知識都是從與實體相關各種“非結構化”和“松散結構”的文本資源中收集的。

  亞馬遜資深首席科學家迪利克·哈卡尼-圖爾(Dilek Hakkani-Tur)在博文中明確表示,這些會話都不是與Alexa客戶互動的結果。

  哈卡尼-圖爾說:“這些數(shù)據(jù)的收集目標是使下一步研究能夠在基于知識的神經(jīng)反應生成系統(tǒng)中進行,解決其他公開數(shù)據(jù)集沒有解決的自然對話中存在的困難挑戰(zhàn)。這將使研究人員能夠專注于人類在主題之間的轉換、知識的選擇與豐富,以及將事實和意見納入對話,并支持出版高質量、可重復的研究。”

  亞馬遜表示,競爭Alexa Prize Socialbot大獎的團隊將可以訪問擴展版本的數(shù)據(jù)集,其名稱為“擴展主題聊天數(shù)據(jù)集”,其中包括正在進行的收集和標注的結果。

  在今天的聲明發(fā)布大約六個月前,亞馬遜就曾開放過一個數(shù)據(jù)集,可以用來訓練AI模型,以識別不同語言和腳本類型的名稱。它被稱為“多語種命名實體音譯系統(tǒng)”,包括近40萬個名字,語言包括摘自維基百科的阿拉伯語、英語、希伯來語、日語片假名和俄語。(騰訊科技審校/金鹿)

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞

国产高清一区在线| 91视频官网入口| 成人乱淫av日日摸夜夜爽| 残忍摧花蹂躏小说| 日本黄色小视频| 国产精品久久久久久久久久性按摩| 丁香婷婷久久久综合精品国产| 俏黄蓉小说| 大色网激情你懂的| 午夜影院网站| 超碰在线三级| 久久久久久久久久久久一区二区| 欧美黑人性猛交| 国产又粗又爽视频| 成人免费在线电影| 国产精品夜夜爱| 99久久久久久久久久| 三妻四妾免费观看完整版高清小说| 护士放荡系列h文| 国产一区2区| 国产精品嫩草在线| 一本a道v久大| 免费在线一级片| 丁度丰满的欲妇| 精品国产一区av| 双性道具play震动按摩器h| 羞羞视频在线下载| 国产激情久久| 国产丝袜91久久久久久久久久久| 性少妇mamd丰满| **被瑜伽教练侵犯58分钟| 日产av在线| 9色视频在线| 百合肉高h喷汁呻吟futa古代| 医生办公室高h荡肉呻吟| 少妇高潮灌满白浆毛片免费看| 国产偷久久一区精品69| 美国十次狠狠av导航| 国产精品成人久久久| 久热草视频| 日本精品免费看|