SafeAssign использует алгоритмы, которые принимают решение о подлинности отправленного текста. Алгоритмы учитывают повторяемость слов, структуру предложений и другие лингвистические характеристики. Сложность принятия решений SafeAssign зависит от языка. Это же относится к объему содержимого, поиск которого выполняется Blackboard для каждого языка.
Сложность языковой обработки Blackboard определяется указанными ниже средствами.
- Источник данных поиска для оценки подлинности работы на определенном языке:
- данные Википедии;
- данные других веб-сайтов;
- данные учреждения об отправке;
- глобальные данные об отправке;
- Полные текстовые данные Proquest.
- Фильтрация стоп-слов: прежде чем искать соответствующий текст в указанных выше источниках данных, SafeAssign удаляет из предложения стоп-слова. Стоп-слова — это часто используемые слова, например «в», «на», «для» и т. д.
- Языковой анализ: SafeAssign делает все слова строчными и усекает их до их корня. Например, слово «Деревья» преобразуется в «дерево». SafeAssign использует анализаторы языка для увеличения количества совпадений по корню слова, которые могут иметь такое же значение, как в исходном тексте, в то время как в совпадающем тексте используются другие слова.
В таблице ниже приводится разбивка средств, используемых для каждого языка в поисковом процессе SafeAssign.
Язык | База данных учреждения | Глобальная база данных | Страницы Википедии | Другие веб-сайты на языке | База данных Proquest | Фильтрация стоп-слов | Языковой анализ |
---|---|---|---|---|---|---|---|
Арабский (ar_SA) | Бета-выпуск | ||||||
Китайский (zh_CN) | Бета-выпуск | ||||||
Чешский (cs_CZ) | |||||||
Датский (da_DK) | |||||||
Голландский (nl_NL) | |||||||
Английский, Великобритания (en_GB) | |||||||
Английский, США (en_US) | |||||||
Финский (fi) | Бета-выпуск | ||||||
Французский (fr_FR) | Бета-выпуск | ||||||
Немецкий (de_DE) | Бета-выпуск | ||||||
Итальянский (it_IT) | Бета-выпуск | ||||||
Японский (ja_JP) | Бета-выпуск | ||||||
Корейский (ko_KO) | |||||||
Малайский (ms_MY) | |||||||
Норвежский (nn_NO) | |||||||
Польский (pl_PL) | |||||||
Португальский, Бразилия (pt_BR) | Бета-выпуск | ||||||
Русский (ru_RU) | |||||||
Испанский (es_ES) | |||||||
Шведский (sv_SE) | |||||||
Тайский (th_TH) | |||||||
Турецкий (tr_TR) | |||||||
Валлийский (cy_GB) |