Загружаю словарь...
0%
Напиши 10 существительных, максимально далёких и не связанных друг с другом по смыслу
Divergent Association Task — тест вербальной креативности, разработанный в Гарварде (Olson et al., 2021, PNAS). Идея: чем дальше по смыслу слова, которые ты придумал, тем выше твоя способность к дивергентному мышлению.
Балл — это среднее семантическое расстояние между первыми 7 валидными словами (21 пара). Расстояния вычисляются по тому, как часто слова используются вместе в похожих контекстах. В оригинальном DAT средний балл — ~78. Среднее по DAT-RU — ~89, большинство набирают от 83 до 95.
Остальные 3 слова — буфер на случай невалидных (опечаток или слишком редких слов). Так задумано в оригинальном тесте.
Модель оценивает близость по контексту употребления в текстах, а не по бытовой логике. Например, «крыша» и «скорость» ближе чем кажется, потому что оба слова часто встречаются в экспрессивных контекстах. Это не баг — это особенность статистической модели языка.
Креативность — сложный процесс, и этот тест измеряет лишь один его аспект — вербальное дивергентное мышление. Низкий балл не означает, что ты некреативный — он не учитывает множество видов реальных творческих достижений.
Каждое слово представлено как вектор из 300 чисел — точка в 300-мерном пространстве. Эти векторы обучены на большом корпусе русских текстов: слова, которые часто появляются в похожих контекстах, располагаются рядом. Например, «кошка» и «собака» — близко (расстояние ~33), а «кошка» и «математика» — далеко (~100).
Расстояние между словами — это косинусное расстояние между их векторами: 1 минус косинус угла. Значение 0 = слова идентичны, ~100 = не связаны, больше 100 = противоположны по контексту. Расстояния в тепловой карте — это значение × 100 для удобства.
Используются эмбеддинги navec из проекта Natasha — модель обучена на русской литературе и новостных текстах. Словарь: 68 841 существительное. Векторы квантизированы до int8 для быстрой загрузки в браузере (потеря точности ~3%).
Оригинальный DAT использует английские эмбеддинги GloVe и не делает никакой коррекции — просто среднее × 100. У нас другая модель (navec) и квантизация int8, из-за чего распределение расстояний сжато: случайные 7 слов дают медиану ~87 вместо ~78. Поэтому мы применяем степенную коррекцию (a·xp+b), калиброванную по 5000 случайным наборам, чтобы шкала баллов была сопоставима с английской версией.