Здравствуйте, гость ( Вход | Регистрация )

Форум судебных медиков России
5 страниц V « < 2 3 4 5 >  
>

Нужно ли высчитывать коэфициент Стьюдента, определение роста

>
ws_K
сообщение 9.05.2012 - 00:59
Сообщение #46


Продвинутый участник

Группа: Участники
Регистрация: 10.04.2007
Пользователь №: 4 781


Цитата(alx71 @ 8.05.2012 - 13:17)
У меня высшее образование по специальности "Радиоэлектронные системы и комплексы управления подвижными объектами".

Уважаемый alx71.

Я должен принести Вам свои извинения. Меня ввел в заблуждение Ваш профиль, в котором указано, что Вы принадлежите к группе "Юристы". Именно поэтому я отослал Вас к литературному источнику, предназначенному юристам. (Кстати, посмотрели ли Вы эту книжку? Право же – заслуживает внимания.)

Поскольку Вы имеете инженерно-техническое образование, возможно, более надежным источником для Вас станет книжка, в свое время опубликованная в серии "Физико-математическая библиотека инженера": Е.И. Пустыльник. Статистические методы анализа и обработки наблюдений. М.: "Наука", 1968 г. Там, в Параграфе 9 (стр. 213 – 252), речь идет о том же самом, но на уровне, гораздо более высоком, и, как мне представляется, более приемлемом для инженера. К сожалению, я не располагаю электронной версией этого издания, но в Интернете его найти, наверное, несложно.

И все же мне не понятны (с учетом образования) истоки Вашей Веры. Не укажите ли, какой-нибудь литературный источник, утверждающий, что выборочные данные ВСЕГДА принадлежат линии регресса?

Далее я вынужден использовать специальные термины, которые Вам, как инженеру, безусловно, понятны.

Дело-то вот в чем: связь между двумя величинами, выявленная по эмпирическим данным никогда не бывает функциональной. Она всегда стохастическая, т.е., с изменением одной величины меняется распределение другой. Кроме того, на эту связь накладываются случайные компоненты (ошибки измерений, прочие случайные факторы). Если стохастической компоненты нет – величины независимы. Если стохастическая компонента не равна нулю, то между величинами имеется стохастическая связь. Причем соотношение между стохастической и случайными компонентами определяет т.н. силу связи (для функциональной зависимости такого понятия не существует). Это соотношение выражается через коэффициент корреляции. Отсутствие случайных компонент дает функциональную зависимость. Вот и все.

Цитируемая Вами формула S = 2.297 * F + 64.63 выведена по эмпирическим данным методом наименьших квадратов (методом Гаусса) и выражает стохастическую связь между наибольшей длиной бедренной кости и ростом человека. Вычисленное по этой формуле значение S не является точным. Истинный рост человека может лежать в диапазоне ±8.85 см. от вычисленного значения. Наличие доверительного интервала – свидетельство того, что связь между F и S является не функциональной, а стохастической. Сила этой связи неизвестна, поскольку значение коэффициента корреляции не опубликовано. Не опубликована и вероятность, с которой рост окажется в указанном диапазоне.

И давайте не будем к этому возвращаться – литературы по этой тематике очень много. Почитайте, и все станет на свои места.

Успехов. ws_K.
Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 9.05.2012 - 04:59
Сообщение #47


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Уважаемый ws_K, я могу лишь рекомендовать Вам изучить основы теории вероятости (с особым упором на правильное употребление терминологии). Сила связи - это сильно...

Также будет целесообразным, если участники обсуждения будут обосновывать свою позицию без ссылок на образование/Веру/длину пиписьки/etc.

Цитата
формула S = 2.297 * F + 64.63 выведена по эмпирическим данным методом наименьших квадратов

Теперь Ваша мысль понятна.
Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 9.05.2012 - 06:20
Сообщение #48


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Да, и этта...
Цитата
Причем соотношение между стохастической и случайными компонентами определяет т.н. силу связи (для функциональной зависимости такого понятия не существует). Это соотношение выражается через коэффициент корреляции.

Коэффициент корреляции говорит только о линейной зависимости. О квадратичной, логарифмической etc он ничего не говорит.
Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 9.05.2012 - 16:45
Сообщение #49


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Посмотрел рисунки к первому посту и вот что мне подумалось.
Т.к. все семь авторов регрессионных формул безусловно сделали все правильно (использовали однородные выборки), то различие в коэффициентах в регрессионных формулах обусловлено только конечным объемом выборки. Т.е. при увеличении объема выборки все одинаковые коэффициенты у разных исследователей должны сходиться по вероятности к одной и той же величине.
Тогда мы вправе свести все семь регрессионных формул к одной, просто усреднив соответствующие коэффициенты.
Возражения?

Сообщение отредактировал alx71 - 9.05.2012 - 16:53
Пользователь offline
К началу страницы
+Ответить с цитированием
эдвард
сообщение 10.05.2012 - 08:03
Сообщение #50


Участник форума

Группа: СМЭ
Регистрация: 9.02.2010
Пользователь №: 19 907


Цитата(alx71 @ 9.05.2012 - 17:45)
Посмотрел рисунки к первому посту и вот что мне подумалось.
Т.к. все семь авторов регрессионных формул безусловно сделали все правильно (использовали однородные выборки), то различие в коэффициентах в регрессионных формулах обусловлено только конечным объемом выборки. Т.е. при увеличении объема выборки все одинаковые коэффициенты у разных исследователей должны сходиться по вероятности к одной и той же величине.
Тогда мы вправе свести все семь регрессионных формул к одной, просто усреднив соответствующие коэффициенты.
Возражения?

Так делать нельзя. Строгое обоснование этого тезиса приводится в специальной математической литературе. Здесь никуда не денешься, - придется искать сами выборки, объединять их и высчитывать по новой.

Точно также нельзя коэффициенты корреляции, полученные по разным выборкам, усреднять. Правда, искать выисходные выборки здесь не нужно, поскольку разработаны специальные формулы расчета т.н. объединенного коэффициента корреляции.

Также нужно заметить, что формулы Мануврие, Пирсона и подобные им были созданы на заре развития регрессионного анализа, теория которого впоследствии была значительна расширена и дополнена (нелинейная регрессия, кусочная регрессия, гребневая регрессия и т.д.). Скорее всего, располагая исходными выборками, можно создать заново новые нелинейные регрессионные уравнения, более точно отражающие имеющиеся стохастические зависимости.
Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 10.05.2012 - 09:13
Сообщение #51


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Цитата(эдвард @ 10.05.2012 - 10:03)
Так делать нельзя. Строгое обоснование этого тезиса приводится в специальной математической литературе.

Да, Вы правы, коэффициенты не усредняются таким образом.

Сообщение отредактировал alx71 - 10.05.2012 - 09:29
Пользователь offline
К началу страницы
+Ответить с цитированием
ws_K
сообщение 11.05.2012 - 02:23
Сообщение #52


Продвинутый участник

Группа: Участники
Регистрация: 10.04.2007
Пользователь №: 4 781


Цитата(alx71 @ 9.05.2012 - 05:59)
...я могу лишь рекомендовать Вам изучить основы теории вероятости (с особым упором на правильное употребление терминологии). Сила связи - это сильно...

Уважаемый alx71.

Я с удовольствием последовал бы Вашему совету, но Вы упорно не называете источников, из которых черпаете столь удивительные сведения, например:

Цитата(alx71 @ 9.05.2012 - 05:59)
Коэффициент корреляции говорит только о линейной зависимости. О квадратичной, логарифмической etc он ничего не говорит.

Это утверждение не соответствует истине. Если есть основания подозревать, что функция нелинейна (а это сразу видно на диаграмме рассеяния), ее линеаризуют путем несложных преобразований. Например, чтобы линеаризовать логарифмическую зависимость
y = a* lg(x) + b достаточно вычислить x' = lg(x) и, затем, для уже линейной функции y' = a * x' + b вычислить, как обычно, коэффициент корреляции r'. Его значение укажет, насколько хорошо логарифмическая функция аппроксимирует эмпирические данные.

Рекомендации относительно изучения основ и терминологии теории вероятности Вы могли бы адресовать не только мне, но, скажем, и В.Ю. Урбаху, который в своей книжке "Биометрические методы", на странице 278, осмелился утверждать: "Важной задачей теории корреляции является построение численного параметра, который давал бы количественное выражение степени или СИЛЫ корреляции (СВЯЗИ) между признаками".
В употреблении этого термина Вы можете упрекнуть также Е.И. Пустыльник, Е.С. Венцель (если Вы приобрели свою специальность в МИИТ, то могли бы ее лично немного подучить) и многих других уважаемых людей. Этот термин имеет два синонима: "ТЕСНОТА связи" (например, Т.М. Сизова) и "сгруппированность точек относительно линии регрессии". При всем многообразии термина, речь идет об одном и том же:
Судебная медицина - Прикрепленное изображение
(Численная оценка моя, сделана "на глазок", визуально).

Цитата(alx71 @ 9.05.2012 - 05:59)
Теперь Ваша мысль понятна.

Да, и этта...

Это не мысли, это констатации.

Цитата(alx71 @ 9.05.2012 - 05:59)
Посмотрел рисунки к первому посту и вот что мне подумалось.
Т.к. все семь авторов регрессионных формул безусловно сделали все правильно (использовали однородные выборки), то различие в коэффициентах в регрессионных формулах обусловлено только конечным объемом выборки. Т.е. при увеличении объема выборки все одинаковые коэффициенты у разных исследователей должны сходиться по вероятности к одной и той же величине.
Тогда мы вправе свести все семь регрессионных формул к одной, просто усреднив соответствующие коэффициенты.
Возражения?

Слава Богу, от абсурдной идеи усреднения регрессоров различных формул Вы, кажется, отказались. Но вот отказались ли Вы от мысли, что "различие в коэффициентах в регрессионных формулах обусловлено только конечным объемом выборки" – не ясно. Если "нет" – откажитесь. Собственно объем выборки не столь уж и важен: вычислением необходимого и достаточного количества наблюдений, кроме прочего, занимается другой раздел математической статистики, называемый "Планирование эксперимента". Гораздо существеннее репрезентативность выборки, а также ее распределение. Так, методика Мануврие предназначена для лиц среднего и НИЖЕ среднего роста, а методика Тельккя - для лиц среднего и ВЫШЕ среднего роста. Именно по этой причине (уважаемый эдвард) никаких "усреднений" по этим методикам делать нельзя – абсурдный вывод неизбежен: методики-то имеют разное назначение.

С уважением, ws_K.


Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 11.05.2012 - 04:16
Сообщение #53


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Ну и каша же у Вас в голове...
Цитата
методика Мануврие предназначена для лиц среднего и НИЖЕ среднего роста, а методика Тельккя - для лиц среднего и ВЫШЕ среднего роста

Тогда для среднего роста использовать их одновременно можно.
Цитата
Именно по этой причине (уважаемый эдвард) никаких "усреднений" по этим методикам делать нельзя

Не по этой. Средний коэффициент по двум выборкам действительно не равен коэффициенту по объединенной выборке - в этом легко убедиться, расписав формулы, я вчера не поленился, потратил время.

Сообщение отредактировал alx71 - 11.05.2012 - 04:27
Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 11.05.2012 - 04:33
Сообщение #54


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Цитата(alx71 @ 9.05.2012 - 06:59)
Уважаемый ws_K, я могу лишь рекомендовать Вам изучить основы теории вероятости (с особым упором на правильное употребление терминологии).

Наверное, начать лучше с того, чтобы научиться выражать свои мысли кратко...
Пользователь offline
К началу страницы
+Ответить с цитированием
эдвард
сообщение 11.05.2012 - 08:19
Сообщение #55


Участник форума

Группа: СМЭ
Регистрация: 9.02.2010
Пользователь №: 19 907


Цитата(ws_K @ 11.05.2012 - 03:23)
Так, методика Мануврие предназначена для лиц среднего и НИЖЕ среднего роста, а методика Тельккя - для лиц среднего и ВЫШЕ среднего роста. Именно по этой причине (уважаемый эдвард) никаких "усреднений" по этим методикам делать нельзя – абсурдный вывод неизбежен: методики-то имеют разное назначение.

Даже если бы обе названные методики были основаны на выборках одинакового объема и были предназначены для одних и тех же целей, регрессионные коэффициенты этих уравнений все равно нельзя было бы усреднять. Именно эту мысль пытается донести донести до Вас alx71.

Кроме того, получается, что существуют методики определения роста (неизвестного параметра), которые работают только для людей высокого или невысокого роста. Откуда мне знать, какую методику выбирать, если этот самый рост мне неизвестен и именно его-то и нужно определить? Если это так, то место этим методикам в мусорной корзине.
Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 11.05.2012 - 08:27
Сообщение #56


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Цитата(эдвард @ 11.05.2012 - 10:19)
Кроме того, получается, что существуют методики определения роста (неизвестного параметра), которые работают только для людей высокого или невысокого роста. Откуда мне знать, какую методику выбирать, если этот самый рост мне неизвестен и именно его-то и нужно определить? Если это так, то место этим методикам в мусорной корзине.

Ну, можно вначале определить, а уж потом решить...
Пользователь offline
К началу страницы
+Ответить с цитированием
ws_K
сообщение 12.05.2012 - 17:41
Сообщение #57


Продвинутый участник

Группа: Участники
Регистрация: 10.04.2007
Пользователь №: 4 781


Уважаемый alx71.
Цитата(alx71 @ 11.05.2012 - 05:33)
Наверное, начать лучше с того, чтобы научиться выражать свои мысли кратко...

Я предпочитаю излагать свои мысли ТОЧНО. Потому что, вот в таком, например, высказывании нет ничего, кроме краткости – ни знания предмета обсуждения, ни логики, ни здравого смысла: "…то различие в коэффициентах в регрессионных формулах обусловлено только конечным объемом выборки. Т.е. при увеличении объема выборки все одинаковые коэффициенты у разных исследователей должны сходиться по вероятности к одной и той же величине. Тогда мы вправе свести все семь регрессионных формул к одной, просто усреднив соответствующие коэффициенты". Может быть, поясните (разумеется, кратко), по какой такой вероятности эти странности должны произойти?

Уважаемый эдвард.
Цитата(эдвард @ 11.05.2012 - 09:19)
Даже если бы обе названные методики были основаны на выборках одинакового объема и были предназначены для одних и тех же целей, регрессионные коэффициенты этих уравнений все равно нельзя было бы усреднять. Именно эту мысль пытается донести донести до Вас alx71.

В своем сообщении #52 я назвал идею усреднения регрессоров различных формул АБСУРДНОЙ. Зачем же пытаться "доносить" до меня то, что мне и так хорошо известно?
Цитата(эдвард @ 11.05.2012 - 09:19)
Кроме того, получается, что существуют методики определения роста (неизвестного параметра), которые работают только для людей высокого или невысокого роста. Откуда мне знать, какую методику выбирать, если этот самый рост мне неизвестен и именно его-то и нужно определить? Если это так, то место этим методикам в мусорной корзине.

Простите нескромность, Вы медик-криминалист? Если – "да", то Вам должен быть известен прием, широко используемый в судебно-медицинской криминалистике (и не только в криминалистике): вначале устанавливается группа (роста или возраста), к которой принадлежит объект. Затем, с помощью регрессионных уравнений, выведенных для соответствующей группы, определяется наиболее вероятное значение роста (или возраста) и доверительный интервал при соответствующей доверительной вероятности. Судебно-медицинская наука устанавливает четыре группы роста: "Малый", "Ниже среднего", "Выше среднего", "Большой". По такой схеме работают методики Пирсона, Дюпертюи и Хэддена, Мануврие, Тельккя, и некоторых других. Этот же прием использует Неклюдов, в своей методике "Определение возраста по остеометрии верхней конечности": вначале определяется возраст с точностью до десятилетия, а затем, в пределах десятилетия, с точностью до нескольких лет.

Не спешите выбрасывать в корзину существующие методики. Вначале попытайтесь создать собственные, более совершенные. А пока Вы этого не сделаете, СМ-криминалистика будет использовать то, что есть.

С уважением, ws_K.

Пользователь offline
К началу страницы
+Ответить с цитированием
alx71
сообщение 12.05.2012 - 18:12
Сообщение #58


Опытный участник

Группа: Юристы
Регистрация: 26.06.2006
Пользователь №: 2 193


Цитата(ws_K @ 12.05.2012 - 20:41)
Может быть, поясните (разумеется, кратко), по какой такой вероятности эти странности должны произойти?

«Cтремление по вероятности» случайной величины s к некоторому числу A означает, что для любого постоянного b вероятность события "|s-A| больше b" стремится к нулю.

Например, частота выпадения орла при бросании монеты стремится по вероятности к вероятности выпадения орла (0,5) при увеличении объема выборки.

Сравните с определением предела по Коши.

Это должно быть во всех учебниках.

Пользователь offline
К началу страницы
+Ответить с цитированием
эдвард
сообщение 14.05.2012 - 11:21
Сообщение #59


Участник форума

Группа: СМЭ
Регистрация: 9.02.2010
Пользователь №: 19 907


Цитата(ws_K @ 12.05.2012 - 18:41)
Уважаемый alx71.
Вам должен быть известен прием, широко используемый в судебно-медицинской криминалистике (и не только в криминалистике): вначале устанавливается группа (роста или возраста), к которой принадлежит объект. Затем, с помощью регрессионных уравнений, выведенных для соответствующей группы, определяется наиболее вероятное значение роста (или возраста) и доверительный интервал при соответствующей доверительной вероятности. Судебно-медицинская наука устанавливает четыре группы роста: "Малый", "Ниже среднего", "Выше среднего", "Большой". По такой схеме работают методики Пирсона, Дюпертюи и Хэддена, Мануврие, Тельккя, и некоторых других. Этот же прием использует Неклюдов, в своей методике "Определение возраста по остеометрии верхней конечности": вначале определяется возраст с точностью до десятилетия, а затем, в пределах десятилетия, с точностью до нескольких лет.


Названный Вами прием в широком смысле называется методом исключения неоднородности корреляции и кластеринга, когда для повышения точности прогноза выборка дробится на отдельные страты, к каждой из которых подгоняется отдельное уравнение регрессии. Однако такой подход хорош только при условии однозначного (невероятностного) определения принадлежности данного объекта к определенному кластеру, которое при этом должно быть осуществлено при исследовании именно этого объекта без обращения к другим объектам, которых может и не быть или не будет доказана их принадлежность к одному индивидууму (в примере с медико-криминалистической идентификацией роста). Если обсуждаемые в теме методики соответствуют приведенным критериям, пусть себе живут (все-таки Пирсон был в математической статистике как минимум второй по величине фигурой после Фишера, а то и первой). Но если нет, надо криминалистам искать другие методы. И это именно их проблема и ничья другая.

Возможно также, что мы говорим о разных формулах. Те регрессионные уравнения Пирсона и Мануврие, которыми я пользовался в молодости, не имели ограничений и не требовали предварительного определения каких-либо групповых принадлежностей. Но найти их я уже не смогу (все книги продал, а деньги пропил).
Пользователь offline
К началу страницы
+Ответить с цитированием
ws_K
сообщение 18.05.2012 - 21:27
Сообщение #60


Продвинутый участник

Группа: Участники
Регистрация: 10.04.2007
Пользователь №: 4 781


Цитата(эдвард @ 14.05.2012 - 12:21)
Названный Вами прием в широком смысле называется методом исключения неоднородности корреляции и кластеринга...
Однако такой подход хорош только при условии однозначного (невероятностного) определения принадлежности данного объекта к определенному кластеру...
Если обсуждаемые в теме методики соответствуют приведенным критериям, пусть себе живут...

Возможно также, что мы говорим о разных формулах. Те регрессионные уравнения Пирсона и Мануврие, которыми я пользовался в молодости, не имели ограничений и не требовали предварительного определения каких-либо групповых принадлежностей...

Уважаемый эдвард.
Скорее всего, мы с Вами говорим об одних и тех же формулах. Могу предположить, что со времен Вашей молодости СМ-наука шагнула далеко вперед, в направлении здравого смысла. Прием, о котором шла речь, является всего лишь приемом, а не каким-то специфическим методом со звучным названием. Дело в том, что "стратификация" (но не выборок, а генеральной совокупности) произошла еще до вывода регрессионных формул т.с., "естественным путем": в выборки Пирсона, Найниса, Гармуса, Мануврие почему-то попали кости низкорослых людей, а выборки прочих исследователей – кости высокорослых. Для того чтобы правильно определить набор методик, который следует применить в конкретном экспертном случае (для определения роста по конкретной, представленной на исследование кости) и применяется этот нехитрый прием. В конечном итоге, от правильного выбора методик зависит достоверность СМ-вывода. Таблица, с помощью которой это можно сделать, опубликована на стр. 343 пресловутой "Настольной книги". Как на практике применять эту таблицу указано там же, на стр. 344, второй абзац сверху. (Это не единственный источник).

Метод, о котором Вы сказали, действительно широко применяется, но не в рассматриваемом нами случае.
Единственное, не возражение – замечание, состоит в том, что каким бы статистическим методом мы не классифицировали выборочные объекты (или параметры): методом кластерного анализа (классификация без обучения) или методом линейного дискриминантного анализа Фишера (классификация с обучением), прочь., результаты всегда будут представлены в вероятностной форме. И дело тут не в методах, а в природе выборочных данных: на них всегда накладываются стохастические связи, и, следовательно, любая оценка, сделанная по выборочным данным, всегда будет лишь вероятной.
Поскольку все без исключения СМ-методики построены по выборочным данным, они никогда не будут удовлетворять предложенному Вами критерию оценки их качества.

Уважаемый alx71.

Вы воспроизвели (не очень точно, но, зато, кратко) теорему Бернулли, более известную под названием "Слабый закон больших чисел". Зачем ее сравнивать с функциональным пределом Коши, не вполне ясно – речь-то идет о разных вещах.
Лучше уж рассмотреть теорему Лапласа, следствием которой этот самый закон является.

Господа.
Мы можем продолжить эти "глубоко теоретические изыски", но они вряд ли кому-нибудь интересны, здесь, на этом Форуме.
Между тем, вопрос прост, груб и, к сожалению, актуален:
Можно ли корректно, с точки зрения МатСтатистики, и приемлемо, с точки зрения СМ-криминалистики ОБОБЩИТЬ результаты, полученные по нескольким различным СМ-методикам, не владея полной (в статистическом смысле) информацией о характере самих методик? Обобщить, поскольку неистребимый соблазн все и всех "усреднить" возникает в умах криминалистов с удивительной периодичностью.

С уважением, ws_K.




Сообщение отредактировал FILIN - 18.05.2012 - 21:37
Пользователь offline
К началу страницы
+Ответить с цитированием

5 страниц V « < 2 3 4 5 >



- Обратная связь Сейчас: 5.11.2025 - 19:49