语言支持

SafeAssign 使用的算法会确定已提交文本的原创性。这些算法会考虑字词频率、句子结构和其他语言特征。SafeAssign 的决策复杂度因语言而异,而且每种语言的 Blackboard 搜索内容量也不同。

Blackboard 根据以下工具细分语言处理复杂度:

  • 用于确定语言原创性的搜索数据源。
    • 维基百科数据
    • 其他网站数据
    • 机构提交数据
    • 全球提交数据
    • Proquest 全文数据
  • 停用词筛选:SafeAssign 在上述数据源中搜索匹配文本之前,会删除句子中的停用词。  停用词是常用字词,如“as a”、“it”、“the”和“on”。
  • 语言分析:SafeAssign 会将所有字词设为小写,并将它们剥离到词根。例如,“Trees”将变为“tree”。SafeAssign 使用语言分析器来增加以下情况的匹配数:根据字词的词根来看,与原始文本具有相似的意思,但是匹配文本使用不同的字词。

下表详细列出了 SafeAssign 的搜索过程中对每种语言使用的工具。

用于每种语言的工具
语言 机构数据库 全局数据库 维基百科页面 其他语言的网站 Proquest 数据库 停用词筛选 语言分析
阿拉伯语 (ar_SA) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
中文 (zh_CN) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
捷克语(cs_CZ) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)    
丹麦语 (da_DK) 是(Y) 是(Y) 是(Y) 是(Y)      
荷兰语 (nl_NL) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)    
英国英语 (en_GB) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)
美国英语 (en_US) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)
芬兰语 (fi) 是(Y) 是(Y) 是(Y) 是(Y)   Beta 版  
法语 (fr_FR) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
德语 (de_DE) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
意大利语 (it_IT) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
日语 (ja_JP) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
韩语 (ko_KO) 是(Y) 是(Y) 是(Y) 是(Y)      
马来语 (ms_MY) 是(Y) 是(Y) 是(Y) 是(Y)      
挪威语 (nn_NO) 是(Y) 是(Y)   是(Y)      
波兰语 (pl_PL) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)    
巴西葡萄牙语 (pt_BR) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) Beta 版  
俄语 (ru_RU) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)    
西班牙语 (es_ES) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)
瑞典语 (sv_SE) 是(Y) 是(Y) 是(Y) 是(Y)      
泰语 (th_TH) 是(Y) 是(Y) 是(Y) 是(Y)      
土耳其语 (tr_TR) 是(Y) 是(Y) 是(Y) 是(Y) 是(Y)    
威尔士语 (cy_GB) 是(Y) 是(Y) 是(Y) 是(Y)