SafeAssign 使用的算法会确定已提交文本的原创性。这些算法会考虑字词频率、句子结构和其他语言特征。SafeAssign 的决策复杂度因语言而异,而且每种语言的 Blackboard 搜索内容量也不同。

Blackboard 根据以下工具细分语言处理复杂度:

  • 用于确定语言原创性的搜索数据源。
    • 维基百科数据
    • 其他网站数据
    • 机构提交数据
    • 全球提交数据
    • Proquest 全文数据
  • 停用词筛选: SafeAssign 在上述数据源中搜索匹配文本之前,会删除句子中的停用词。停用词是常用字词,如“as a”、“it”、“the”和“on”。
  • 语言分析:SafeAssign 会将所有字词设为小写,并将它们剥离到词根。例如,“Trees”将变为“tree”。SafeAssign 使用语言分析器来增加以下情况的匹配数:根据字词的词根来看,与原始文本具有相似的意思,但是匹配文本使用不同的字词。

下表详细列出了 SafeAssign 的搜索过程中对每种语言使用的工具。

用于每种语言的工具
语言机构数据库全局数据库维基百科页面其他语言的网站Proquest 数据库停用词筛选语言分析
阿拉伯语 (ar_SA)YesYesYesYesYesBeta 版 
中文 (zh_CN)YesYesYesYesYesBeta 版 
捷克语(cs_CZ)YesYesYesYesYes  
丹麦语 (da_DK)YesYesYesYes   
荷兰语 (nl_NL)YesYesYesYesYes  
英国英语 (en_GB)YesYesYesYesYesYesYes
美国英语 (en_US)YesYesYesYesYesYesYes
芬兰语 (fi)YesYesYesYes Beta 版 
法语 (fr_FR)YesYesYesYesYesBeta 版 
德语 (de_DE)YesYesYesYesYesBeta 版 
意大利语 (it_IT)YesYesYesYesYesBeta 版 
日语 (ja_JP)YesYesYesYesYesBeta 版 
韩语 (ko_KO)YesYesYesYes   
马来语 (ms_MY)YesYesYesYes   
挪威语 (nn_NO)YesYes Yes   
波兰语 (pl_PL)YesYesYesYesYes  
巴西葡萄牙语 (pt_BR)YesYesYesYesYesBeta 版 
俄语 (ru_RU)YesYesYesYesYes  
西班牙语 (es_ES)YesYesYesYesYesYesYes
瑞典语 (sv_SE)YesYesYesYes   
泰语 (th_TH)YesYesYesYes   
土耳其语 (tr_TR)YesYesYesYesYes  
威尔士语 (cy_GB)YesYesYesYes