语言支持
SafeAssign 使用的算法会确定已提交文本的原创性。这些算法会考虑字词频率、句子结构和其他语言特征。SafeAssign 的决策复杂度因语言而异,而且每种语言的 Blackboard 搜索内容量也不同。
Blackboard 根据以下工具细分语言处理复杂度:
- 用于确定语言原创性的搜索数据源。
- 维基百科数据
- 其他网站数据
- 机构提交数据
- 全球提交数据
- Proquest 全文数据
- 停用词筛选:SafeAssign 在上述数据源中搜索匹配文本之前,会删除句子中的停用词。 停用词是常用字词,如“as a”、“it”、“the”和“on”。
- 语言分析:SafeAssign 会将所有字词设为小写,并将它们剥离到词根。例如,“Trees”将变为“tree”。SafeAssign 使用语言分析器来增加以下情况的匹配数:根据字词的词根来看,与原始文本具有相似的意思,但是匹配文本使用不同的字词。
下表详细列出了 SafeAssign 的搜索过程中对每种语言使用的工具。
语言 | 机构数据库 | 全局数据库 | 维基百科页面 | 其他语言的网站 | Proquest 数据库 | 停用词筛选 | 语言分析 |
---|---|---|---|---|---|---|---|
阿拉伯语 (ar_SA) | Beta 版 | ||||||
中文 (zh_CN) | Beta 版 | ||||||
捷克语(cs_CZ) | |||||||
丹麦语 (da_DK) | |||||||
荷兰语 (nl_NL) | |||||||
英国英语 (en_GB) | |||||||
美国英语 (en_US) | |||||||
芬兰语 (fi) | Beta 版 | ||||||
法语 (fr_FR) | Beta 版 | ||||||
德语 (de_DE) | Beta 版 | ||||||
意大利语 (it_IT) | Beta 版 | ||||||
日语 (ja_JP) | Beta 版 | ||||||
韩语 (ko_KO) | |||||||
马来语 (ms_MY) | |||||||
挪威语 (nn_NO) | |||||||
波兰语 (pl_PL) | |||||||
巴西葡萄牙语 (pt_BR) | Beta 版 | ||||||
俄语 (ru_RU) | |||||||
西班牙语 (es_ES) | |||||||
瑞典语 (sv_SE) | |||||||
泰语 (th_TH) | |||||||
土耳其语 (tr_TR) | |||||||
威尔士语 (cy_GB) |