ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 투데이 버블 설명서
    새소식 2023. 5. 10. 13:30

     

    지금 사람들은 어떤 이야기를 나누고 있을까?

    시시각각 생겨나는 수많은 정보와 대화들.
    많은 온라인 플랫폼들이 “나”의 관심사에 맞춰 개인화된 서비스를 제공하고 있지만,
    한편으로 “우리”는 지금 무엇에 관심을 갖고 있는지 궁금해질 때가 있습니다.

    투데이 버블은 오늘 우리 주변의 여러 사람들이 관심을 갖고 많이 이야기하는 주제가 무엇인지 발견해 나가는 서비스입니다.

    투데이 버블을 통해 이용자들이 보다 유용한 정보를 얻고 우리 사회의 공감대를 형성해 나가는 데 도움이 되길 기대합니다.

     

    투데이 버블은 어떻게 만들어질까?

    (데이터의 출처) 웹크롤러(Web Crawler)를 사용해 다양한 웹페이지를 자동으로 모으고 정리합니다.

    웹크롤러는 ‘다음 웹문서 검색’과 마찬가지로, 공개된 웹페이지에만 방문합니다. 또한 각 웹사이트 관리자가 사전에 설정한 웹크롤러 방문 규칙(통상 robots.txt라고 불림)을 준수합니다. 

     - 참고: 웹사이트 관리자는 ‘다음 웹마스터 도구’를 활용해 다음 웹크롤러가 방문하는 URL 데이터베이스 등록을 직접 관리할 수 있습니다.

     

    (분석과 추출) 수집한 문서를 분석해 최근 언급량이 현저하게 증가한 키워드를 추출합니다.

     1) 최근 수 일 동안 웹페이지들에서 언급된 단어를 분석(A)합니다.
     2) 다음으로 비교적 짧은 시간(몇 시간 내) 동안 웹페이지들에서 언급된 단어를 분석(B)합니다.
     3) A와 B를 비교해, 평소 대비 최근 언급량이 현저하게 증가한 단어를 추출합니다.
         - 이 과정에서 출처(웹사이트)의 다양성을 고려하는 보정이 이루어집니다. 한두 곳의 출처에서만 언급량이 급증한 키워드보다는 보다 다양한 곳에서 이야기되고 있는 키워드가 더 잘 드러나도록 하기 위한 장치입니다.
     4) 유사한 의미를 가진 단어 조합들을 통합하고 중복을 제거한 뒤, 주제의 특징을 가장 잘 표현하는 키워드 조합을 선택합니다.

     

    (모니터링) 투데이 버블의 서비스 제공 목적에 부합하는 키워드를 제공하기 위해 노력합니다.

    투데이 버블은 이용자의 생활과 안전에 도움이 되거나 우리 사회의 공감대를 확대할 수 있는 이야기 주제를 발견하는 데 도움을 주는 서비스입니다.

    아래와 같이 투데이 버블의 서비스 성격에 맞지 않는 키워드는 전달되지 않도록 모니터링합니다. 운영 기준에 부합하지 않는 키워드에 대한 이용자 신고가 있을 경우, 신속히 검토하고 조치하겠습니다.

     - 선정성·폭력성 등 아동·청소년 유해 정보
     - 증오·혐오·차별 표현
     - 광고·홍보·마케팅 등 상업적 목적의 정보
     - 오인 가능성이 있거나 허위정보 확산이 우려되는 경우
     - 공인의 사건사고나 개인의 사생활에 가까운 소식
     - 범죄 또는 자극적인 사건사고에 관한 정보
     - 사회적 갈등을 초래할 우려가 있는 주제

     

    Q&A. 

    Q. ‘투데이 버블'은 모두에게 동일한 키워드를 보여주나요?

    A. 

    ◼︎ 대부분 다르지만, 일부는 같은 결과를 제공받을 수 있습니다 : 투데이 버블을 제공하기 위해 추출한 전체 키워드 세트는 모두에게 동일하고, 이를 다시 세트 내 무작위 조합의 키워드 리스트를 만들어 이용자에게 제공합니다. 대다수는 다른 리스트를 제공받게 되지만, 일부는 작은 확률에 의하여 같은 리스트 화면을 보실 수도 있습니다. 이 과정에서 별도의 개인화는 없습니다. 

    ◼︎ 랜덤으로 키워드 결과를 제공하는 이유 : 다양한 키워드들을 제공함에 있어 어떠한 우선순위도 부여하지 않았기 때문에 가장 잘 나타내는 방법을 선택했습니다. 다른 키워드들을 보고 싶을 때는 ‘새로운 키워드' 버튼을 눌러 새로운 키워드를 다시 무작위적으로 불러올 수 있습니다. 

     

    Q. ‘투데이 버블'은 한 번에 몇 개나 생성되나요?

    A. 상황에 따라 다릅니다. 투데이 버블 결과를 만들기 위한 새로운 내용의 문서들이 얼마나 많이 새로 만들어지냐에 따라 도출되는 키워드의 개수가 유동적이기 때문입니다.  

     

    Q. 모든 키워드가 동일한 시간 동안 노출되나요?

    A. 주제마다 다릅니다. 투데이 버블은 온라인상 언급되는 빈도가 많은 주제를 이용자들에게 제공하는 서비스입니다. 따라서 지속적으로 특정 키워드를 중심으로 더 많은 웹페이지가 생겨나고 있다면 이 키워드의 투데이 버블 지속 시간은 더 길 수 있습니다.

     

    Q. 노출되는 키워드와 문서의 관리는 모두 자동인가요? 

    A. 키워드 추출을 위한 데이터 수집, 분석 및 대표 키워드 조합 도출까지의 과정은 사람의 별도 개입 없이 알고리즘에 의해 자동적으로 이뤄집니다. 단, 키워드 추출 결과가 이용자에게 전달되기 전에 운영 가이드라인에 근거한 모니터링이 진행됩니다. 알고리즘이 구분하기 힘든 홍보성 자료나 부적절한 표현 등이 포함되지 않도록 검토하기 위해서입니다. 

     

    Q. ‘실시간 검색어’와는 어떻게 다른가요?

    A. 과거 다음에서 제공했던 실시간 검색어는 다음검색이라는 하나의 서비스에서 이용자가 입력하는 검색어 통계정보를 활용해 순위를 매겨 제공했습니다. 순간적인 검색어 입력량을 기반으로 키워드를 추출했기 때문에, 짧은 시간 동안 의도적으로 검색량을 증가시키는 행위가 실시간 검색어 순위에 영향을 미칠 수도 있었습니다.

    투데이 버블은 다음의 내부 서비스뿐 아니라, 제휴된 뉴스 사이트 및 온라인 커뮤니티 등 다양한 외부 웹페이지를 정보의 출처로 하며, 출처의 다양성을 고려한 보정 과정을 거칩니다. 또한 분석의 기준이 되는 시간을 늘리고, 키워드에 순위를 매기지 않았습니다.
    투데이 버블은 유용한 정보나 우리 사회의 공감대를 넓힐 수 있는 주제를 발견하도록 돕는다는 서비스 제공 목적에 따라 운영됩니다. 서비스 취지에 적합한 키워드만을 이용자에게 제공하겠습니다.

     

    Q. 다음뉴스의 ‘언론사가 주목한 이슈'와는 어떻게 다른가요?

    A. 투데이 버블은 다음뉴스를 통해 제공되는 뉴스(뉴스콘텐츠 제휴) 뿐만 아니라, 검색제휴 뉴스, 다음카페, 외부 온라인 커뮤니티 등 다양한 출처의 웹페이지를 분석합니다. 이를 통해 언론뿐 아니라 이용자들이 주목한 이야기 주제가 더 잘 드러나도록 하고 있습니다. 분석 대상이 되는 웹페이지는 점진적으로 확대될 예정입니다.

     

    Q. 키워드 앞에 제공되는 이미지는 어떤 기준으로 선별하나요?

    A. 키워드에 인물, 방송, 영화, 스포츠구단, 국가명 등이 포함된 경우 해당 이미지가 노출될 수 있습니다. 하나의 키워드에 2개 이상의 이미지가 매칭되었다면 검색결과에서 더 많이 찾는 아이템이 반영됩니다. 키워드가 명확하게 위 기준에 부합하지 않는 경우(동의어로 사용된 경우 등) 이미지가 노출되지 않을 수 있습니다.

     

    Q. 키워드와 함께 제공되는 정보는 어떤 기준으로 제공되나요?

    A. 해당 키워드와 관련된 뉴스 기사의 카테고리로서, 이용자가 키워드의 주제를 빠르게 파악하는 데 도움을 주기 위해 제공하고 있습니다. 관련한 뉴스 기사를 아직 찾지 못한 경우에는 우선 ‘기타'로 표현되며, 충분한 정보가 수집된 후 업데이트됩니다.

     

    Q. 다양한 언론사가 동일한 내용의 뉴스를 많이 배포할 경우 키워드로 선정될 가능성이 높은 것 아닌가요?

    A. 다양한 언론사에서 동일한 내용을 다루고 있다면 후보가 될 가능성이 있습니다. 다만, 그렇다 하더라도 서비스 기준에 부합하는 키워드들에 한해서만 제공될 예정이고, 언론사 외 출처에서 언급되는 내용들도 분석에 포함되어 있어서 비중을 계속 확인하며 서비스 기준을 업데이트하겠습니다.

     

    Q. 한 번에 추출되는 최대 키워드의 수는 몇 개인가요? 만약 최대 키워드 수에 제한이 있다면, 일부 키워드는 많이 이야기되고 있음에도 불구하고 상대적으로 배제될 수도 있는 것인가요?

    A. 추출되는 최대 키워드 수를 별도로 제한하고 있지 않습니다. 

     

Designed by Tistory.