2009/07/10 10:34
왁자지껄/밖으로
제목이 좀 자극적이다.
독자 여러분께는 가장 먼저 김제닥 선생님께서 올리신
지금까지의 상황은 이 글을 참고하면 될 것이고, 내가 편 주장들은 이 글에 Comment로 달려있으니 먼저 읽어보길 바란다.
일단 결론 먼저 얘기하겠다.
내가 왜 저런 자극적인 제목을 붙였는지 설명하고 싶다. 혹시 지식경영을 들어보았는지 모르겠다. Knowledge (based)Management 라고 해서 KM으로 부르는 경영 기법 혹은 전략인데, 이 KM을 이해하려면 몇 가지 배경을 알아야한다.
이미 왜곡되어있을 확률이 많은 부정확한 정보를 소스로 삼고, 거기에 통계학이 무엇인지, 연구 모형이 무엇인지, 연구 결과를 어떻게 해석해야하는지도 모르는 사람이 데이터 마이닝을 통하여 자신만의 대립 가설(연구 가설)을 검증 없이 블로그를 통해 좋은 Information인양 발행하고 있으니 더더욱 더 위험하고 나쁜 쓰레기를 생산하고 있는 것이다.
또한 통계 자료가 쓸모 없거나(표본 수가 형편 없이 작다거나) 쓰레기 값이 있으면 아무리 유의해도 믿으면 안된다.
나는 원래 아래 달린 댓글 정도 쓰고 참으려고 했다. 하지만 오늘 김제닥 선생님의 새 글을 읽고 나도 어제 썼던 댓글을 가져온다. 몇 가지 보강을 했고 밑줄을 쳤으니 잘 읽어줬으면 한다.
그냥 더 이상 쓰레기 생산하지 마시고 입 다물고 계시면 중간이라도 갈 것을.

자신의 한계를 아신다면 의학자로서가 아니라, 상호작용 매채를 연구하는 연구원으로서 그만 하시길 강력히 권해드린다.
모든 토론은 트랙백으로만 받겠으니 자신의 블로그에서 글을 쓰시고 트랙백이라는 좋은 기능을 이용해주시길 당부한다.
독자 여러분께는 가장 먼저 김제닥 선생님께서 올리신
그리고
를 먼저 읽어볼 것을 강력하게 부탁드린다.
지금까지의 상황은 이 글을 참고하면 될 것이고, 내가 편 주장들은 이 글에 Comment로 달려있으니 먼저 읽어보길 바란다.
일단 결론 먼저 얘기하겠다.
JJY님은 함량 미달의 가짜 전문가이고
가짜 전문가 JJY님께서는
더 이상 근거 없는 쓰레기 소스를 가져와서
함량 미달의 데이터 마이닝 실력으로
자칫 건강을 해칠 수 있는 쓰레기를
더 이상 생산해서는 안된다.
가짜 전문가 JJY님께서는
더 이상 근거 없는 쓰레기 소스를 가져와서
함량 미달의 데이터 마이닝 실력으로
자칫 건강을 해칠 수 있는 쓰레기를
더 이상 생산해서는 안된다.
내가 왜 저런 자극적인 제목을 붙였는지 설명하고 싶다. 혹시 지식경영을 들어보았는지 모르겠다. Knowledge (based)Management 라고 해서 KM으로 부르는 경영 기법 혹은 전략인데, 이 KM을 이해하려면 몇 가지 배경을 알아야한다.
1. 지식경영은 Database(DB)에 축적된 Data를 이용한다.근데 마치 지금 돌아가는 상황을 보니 딱 GIGO의 상황이다.
2. Data들이 축적되면 그 데이터들이 축적된 데이터베이스를 'Data warehouse'(데이터 웨어하우스, DW)라고 부른다.
3. 지식경영을 통해 무언가 하고 싶을 때는 DW에서 데이터마이닝(Data mining)을 통하여 데이터를 뽑아낸다.
4. 그러나 한가지 치명적인 단점. GIGO를 조심해야한다. Garbage In, Garbage Out이라는 의미인데 Data 중에 쓰레기 값이 많아지면 많아질수록생산된 데이터가 쓰레기가 될 확률이 높다.
이미 왜곡되어있을 확률이 많은 부정확한 정보를 소스로 삼고, 거기에 통계학이 무엇인지, 연구 모형이 무엇인지, 연구 결과를 어떻게 해석해야하는지도 모르는 사람이 데이터 마이닝을 통하여 자신만의 대립 가설(연구 가설)을 검증 없이 블로그를 통해 좋은 Information인양 발행하고 있으니 더더욱 더 위험하고 나쁜 쓰레기를 생산하고 있는 것이다.
또한 통계 자료가 쓸모 없거나(표본 수가 형편 없이 작다거나) 쓰레기 값이 있으면 아무리 유의해도 믿으면 안된다.
데이터를 핸들링 하는 사람들이 가장 많이 듣는 말중에 하나가 GIGO(Garbage In, Garbage Out)이라는 말이다.
이는 "잘못된 데이터가 입력이 되면 아무리 알고리즘이 좋고 퍼포먼스가 좋은 시스템이 있더라도 결국 잘못된 값을 출력할 수 밖에 없다" 라는 의미를 내포하고 있다.
그러나 통계쪽나 ML쪽을 하다보면 많은 사람들이 GIGO의 의미를 잘못 이해하고 있다는것을 볼 수 있다.
바로 Garbage In, Gospel Out으로 말이다. (쓰레기를 넣는데 복음성가가 나오다니..@.@)
이는 특정 패키지 및 툴을 사용해서 데이터를 핸들링 하거나 유명한 통계적인 방법을 사용해서 나온 결과를 컴퓨팅 결과를 아무 비판없이 맹신한다는데 문제가 있다는것을 알려준다.
값비싼 SPSS, SAS 나 데이터마이닝 패키지를 이용했다고 그 결과까지 맹신할수는 없다.
그러나 복잡한 알고리즘을 간단하고 빠르게 처리해주는 소프트웨어의 보급과 허무맹랑한 광고가 넘쳐남에 따라서 거의 신성화 수준으로 발전하고 있다.
일단 이런 패키지들은 학술적으로 인정된 알고리즘을 구현하고 있고 일정 포멧의 데이터가 들어올때 적절한 값들만 뽑아주는 역할을한다. 그래서 자신이 처리하는 데이터가 똥인지 된장인지 구분하지 못하며 더군다나 결과에 대한 보장을 해주지 못한다.
예를들어 평균과 표준편차는 데이터에 대한 뭔가 획기적으로 다른 정보를 주지 않는다, 다만 데이터를 요약해서 보는 창구역할만 하는것 뿐이다.
쓰레기를 넣어도, 깨끗한 정보를 넣어도 모두 평균과 표준편차를 구할 수 있다. 하지만 믿어야 되는지 말아야 되는지는 그 평균 및 표준편차만 보고 판단할 수 없다.
그래서 데이터를 수집, 정제하는 노가다 작업이 필요하다.
작년 데이터마이닝 수업 시간에 교수님이 하신 말씀이 생각난다.
"데이터에서 정보를 뽑는 프로세싱에도 80/20 법칙이 적용된다. 80%의 작업은 데이터를 처리하기 위한 전처리 작업, 그리고 20%는 실제 분석하는 작업에 들어가게 된다. "나는 이미 논문 작업을 하면서 데이터 준비 및 전처리 작업이 얼마나 힘든지 조금이나마 경험해서 위 말씀이 기억에 남는다.
(하략)
(from GIGO에 대한 두가지 관점 via http://freesearch.pe.kr/1104)
나는 원래 아래 달린 댓글 정도 쓰고 참으려고 했다. 하지만 오늘 김제닥 선생님의 새 글을 읽고 나도 어제 썼던 댓글을 가져온다. 몇 가지 보강을 했고 밑줄을 쳤으니 잘 읽어줬으면 한다.
조금이라도 받아들여주셔서 감사합니다.도대체 근본적인 문제의 해결은 언제 되는 것일까.
그래도 말만 살짝 바꾸셨군요. 근본적인 문제가 해결되지 않았습니다.
왜 식욕조절에 좋은지는 아직도 근거 없이 글이 남아있을 뿐입니다.
새로운 topic을 제 블로그에 작성하여 트랙백으로 보내려다가 댓글로 씁니다.
부탁드립니다. 근본적인 문제의 해결을 위하여 제 2, 제 3의 이런 글이 없길 바랍니다.
이 말은 무슨 말이냐면, 타인이 개인의 창작의 자유를 구속할 수는 없습니다만, 공익을 위하여 이 블로그에 체중 감량을 운운하며 이 블로그 또는 앞으로 시작할 블로그에 더 이상의 포스팅이 올라오질 않길 바란다는 이야기입니다.
그럼에도 불구하고 정말 글을 쓰기 원한다면 reference를 밝혀 (공인된 논문을 기반으로 하시길 부탁드립니다.) "Walther, . (2008). The role of friends' appearance and behavior onevaluations of individuals on facebook: Are we known by the company wekeep? Human Communication Research, 34(1), 28.에 의하면 Facebook은 하버드 대학교의 인간관계망을 기반으로 시작하여 대학가 중심에서 폭발적인 성장을 이루었고 현재의 Facebook으로 성장하였다고 합니다." 이런식으로 근거를 밝히시고 글을 쓰시길 바랍니다. (보통 논문에서는 글이 너무 지저분해진다는 이유로 각주처리나 미주 처리를 하고있지요.)
앞서 제가 연구를 한다고 말씀드렸지요? 제 연구분야는 '경영학에서의 미디어 활용'입니다. 그 안에는'블로그'가 포함되어있습니다. 여러가지 선행 연구들을 기반으로 제가 내린 블로그의 정의는 '블로그는 1인비선형(non-linear) 멀티미디어 저작도구(publishing tool)이다.'입니다. 일반 대중(특히 20대~30대의Post Digital Generation)들은 궁금한 것이 있으면 바로 인터넷을 찾아 별 다른 고민 없이 data들을 수집하고선택하여 data들을 자신만의 왜곡된 information으로 만들어 너무도 쉽게 의사 결정(decision making)을하는 경향이 있으므로 공익을 위해서는 올바른 정보만을 제공해야만 합니다. (배성호, 기업내 SNS 도입에 따른 조직행동의 변화연구를 위한 기초연구, forthcoming)
JJY님께서 직접 체험하신 검정콩(서리태 등)이 처치 결과 유의한 결과를 나타냈다고요?
그래서 이 블로그에 이런 글들을 쓰신다고요? 그것은 그저 '대립 가설'(Alternative Hypothesis)일 뿐입니다. 효과를 입증하고 싶으시다면 귀무 가설과 대립 가설을 세워서 연구 모형을 만들고 실험을 실행하고 유의한 표본들을 많이 모아논문으로 작성하시고 학술지에 제출하시어 논문이 학술지에 Accept 되면 됩니다. 이렇게 글 안쓰셔도 돼요. 이렇게 어설프게 글 1000개를 쓰셔도 철저한 논증을 거친 잘 쓴 논문 하나를 따라오지 못합니다.
책이 문제가 되는 까닭도 실험이나 선행연구등으로 검증되지 않았기 때문이겠지요. 실험을 했다고 해도 그것은 단지 연구과정에서 사용된 표본이 단 하나밖에 없기 때문에표본에 대한 df(degree of freedom)가 0이라는게 문제가 됩니다. (df는 사례수 - 1으로 계산합니다.) df=0일 경우 표본에서 선택할 수 있는 사례가 없기 때문에 그 데이터는 신뢰하기 매우 곤란한 데이터가 됩니다. 검증이요? 닥터(Ph.D 등)에게 감수를 받았느냐 받지 않았느냐는 문제가 되지 않습니다. 책의 전체적인 내용을 뒷받침하는 선행연구가 있느냐없느냐가 문제인것입니다.
블로그가 더더욱 문제되는 까닭은 책에서 주장한 대립 가설 연구의 연장으로 글이 쓰여지고 있다는 것이 문제가 되는 것이고요.
이 블로그의 지금 상황은 Garbage In Garbage Out. 고민해봐야 할 문제입니다.
그냥 더 이상 쓰레기 생산하지 마시고 입 다물고 계시면 중간이라도 갈 것을.
삽질 그만하시죠? via http://digitalcamp.tistory.com/2971
자신의 한계를 아신다면 의학자로서가 아니라, 상호작용 매채를 연구하는 연구원으로서 그만 하시길 강력히 권해드린다.
모든 토론은 트랙백으로만 받겠으니 자신의 블로그에서 글을 쓰시고 트랙백이라는 좋은 기능을 이용해주시길 당부한다.