Разработка стандартного делового письма должна основываться на строгом учете статистических закономерностей появления в тексте тех или иных слов и оборотов. Предположим, необходимо разработать бланк сопроводительного письма. Для этого составляется частотный словарь, например, для 250 таких писем. Если принять среднюю длину письма, равную 20 словам, то общий объем выборки составит 5000 словоупотреблений. Теперь необходимо подсчитать, какая точность анализа достигается при данном объеме выборки.
Как известно, чем больше требуемая точность (т. е. чем меньше ошибка), тем больше при заданной частоте употребления слова должен быть объем выборки. Это отражено в элементарной статистической формуле вида
где N — объем выборки;
о — заданная относительная ошибка;
р — частота, которая по данной выборке должна быть определена с ошибкой, не превышающей о;
zp — постоянная величина.
Следовательно, из той же формулы можем найти минимальную частоту слов для данной выборки и данной ошибки.
Слова, которые имеют в нашем частотном словаре частотность ниже этого минимума, не могут рассматриваться в качестве объекта для анализа, так как их частота, очевидно, была определена со слишком большой ошибкой.
Продолжение