Web mining språk prossesering med Python

Pedagogisk programmeringsspråk
KBleivik
Site Admin
Innlegg: 30
Registrert: fre mar 29, 2013 7:52 pm

Web mining språk prossesering med Python

Legg innav KBleivik » fre mar 29, 2013 10:47 pm

1. Bakgrunn

Python er et relativt kraftig språk og språket har mange innstikk, utvidelser og pakker. Har man installert Python og pakker som networkx kan man analysere data man har hentet fra nettet med en rekke verktøy som for eksempel: Natural Language Toolkit (NLTK) http://www.nltk.org/ hvor også boken "Natural Language Processing with Python --- Analyzing Text with the Natural Language Toolkit" http://www.nltk.org/book Det meste kan gjøres fra datamaskinen om man er koblet til nettet. NLTK pakken installeres som alle andre pakker med pip eller easy_install. Etter at data er lastet ned i filer eller en database, trenger man strengt tatt ikke være kbolet til nettet for å analysere data.

2. twitter

Sosiale media siter som for eksempel twitter har egne API https://dev.twitter.com/ som kan brukes på ulike måter, for eksempel ved å installere twitter pakken.

Kode: Velg alt

pip install twitter


Deretter er det bare å gå til python programmet og importere twitter pakken på vanlig måte.

Kode: Velg alt

python

import twitter

help(twitter.Twitter)

Les dokumentasjone for hvordan pakken (siste kommando i kodesnutten ovenfor) og APIet https://dev.twitter.com/docs kan brukes. En annen nyttig side er https://github.com/twitter. Twitter søk (search) https://dev.twitter.com/docs/api/1/get/search er mye brukt.

Se også:
https://dev.twitter.com/docs/api/1/get/search

https://dev.twitter.com/docs/using-search

Dersom du jevnlig benytter twitter APIet, bør du også følge med på API bloggen https://dev.twitter.com/blog Blant annet finner du i arkivet for august 2011 denne https://dev.twitter.com/blog/changing-trends-api posten. Du finner samme post ved å søke på trends API.

Litteratur:
http://shop.oreilly.com/product/0636920018261.do

http://shop.oreilly.com/product/0636920018070.do

https://github.com/ptwobrussell/Mining-the-Social-Web

3. Datamining

Etter at data er lagret i python datastrukturer, filer eller databaser kan de analyseres på mange ulike måter. Søk på uttrykk som

lexical density

lexical hypothesis

lexical diversity

som eksempler på hvordan tekst kan analyseres.

Gå tilbake til «Python»

Hvem er online

Brukere i dette forumet: Ingen registrerte brukere og 1 gjest